您的位置: 首页 >科技 >

研究人员针对协作众包平台openml.org的用户测试了该系统

2019-06-21 16:56:26 编辑: 来源:
导读 数据科学近期的巨大增长 - 无论是作为学科还是应用程序 - 都可以部分归功于其强大的解决问题能力:它可以预测信用卡交易何时是欺诈性的

数据科学近期的巨大增长 - 无论是作为学科还是应用程序 - 都可以部分归功于其强大的解决问题能力:它可以预测信用卡交易何时是欺诈性的,帮助企业主找出何时发送优惠券通过预测学生何时辍学,以最大化客户响应或促进教育干预。

然而,要获得这些数据驱动的解决方案,数据科学家必须通过一系列复杂的步骤来处理原始数据,每个步骤都需要许多人为驱动的决策。决定建模技术的过程的最后一步尤其重要。有数百种技术可供选择 - 从神经网络到支持向量机 - 并且选择最好的技术可能意味着数百万美元的额外收入,或者发现关键医疗设备中的缺陷与缺失它之间的差异。

上周在IEEE国际大数据大会上发表的一篇名为“ATM:一种用于自动机器学习的分布式,协作,可扩展系统”的论文中,来自麻省理工学院和密歇根州立大学的研究人员提出了一种自动选择模型的新系统。一步,甚至改善人的表现。该系统称为自动调谐模型(ATM),利用基于云的计算对建模选项执行高吞吐量搜索,并针对特定问题找到最佳可能的建模技术。它还调整了模型的超参数 - 一种优化算法的方法 - 这可以对性能产生重大影响。ATM现在可用作企业作为开源平台。

为了将ATM与人类表演者进行比较,研究人员针对协作众包平台openml.org的用户测试了该系统。在这个平台上,数据科学家们共同努力解决问题,通过相互建立工作找到最佳解决方案。ATM从该平台分析了47个数据集,并且能够提供比人类在30%的时间内提出的解决方案更好的解决方案。当它无法超越人类时,它就会非常接近,而且至关重要的是,它的工作速度比人类快得多。虽然open-ml用户平均需要100天才能提供接近最优的解决方案,但ATM可以在不到一天的时间内得到答案。

赋予数据科学家权力

这种速度和准确性为数据科学家提供了急需的安心,他们经常受到“假设”的困扰。“有很多选择,”密歇根州立大学计算机科学与工程系教授,该论文的资深作者Arun Ross说。“如果数据科学家选择支持向量机作为建模技术,那么神经网络或不同模型是否会带来更好的准确性的问题总会在她脑海中浮现。”

在过去几年中,模型选择/调整的问题已成为机器学习的一个全新子领域的焦点,称为Auto-ML。Auto-ML解决方案旨在为数据科学家提供针对给定机器学习任务的最佳模型。只有一个问题:竞争的Auto-ML方法产生不同的结果,并且它们的方法通常是不透明的。换句话说,在寻求解决一个选择问题时,社区创造了另一个更复杂的问题。麻省理工学院信息与决策系统实验室(LIDS)的主要研究科学家,该论文的高级作者Kalyan Veeramachaneni说:“'假设'问题仍然存在。” “它只是转移到'如果我们使用不同的Auto-ML方法怎么办?'”

ATM系统的工作方式不同,使用按需云计算在一夜之间生成并比较数百(甚至数千)个模型。为了搜索技术,研究人员使用智能选择机制。系统并行测试数千个模型,对每个模型进行评估,并为那些有希望的技术分配更多的计算资源。糟糕的解决方案被淘汰,而最好的选择上升到顶部。

ATM不是盲目地选择“最佳”并将其提供给用户,而是将结果显示为分布,允许并排比较不同的方法。通过这种方式,罗斯说,ATM加速了测试和比较不同建模方法的过程,而没有自动化人类直觉,这仍然是数据科学过程的重要组成部分。

开源,社区驱动的方法

通过简化模型选择流程,Veeramachaneni和他的团队旨在让数据科学家能够在更具影响力的部分工作。“我们希望我们的系统能够让专家们花更多的时间来理解数据,问题的制定和特征工程,”Veeramachaneni说。

为此,研究人员正在开源ATM,使其可供想要使用它的企业使用。它们还包括一些条款,允许研究人员整合新的模型选择技术,从而不断改进平台。ATM可以在单个机器,本地计算集群或云中的按需集群上运行,并且可以同时处理多个数据集和多个用户。

“中小型数据科学团队可以通过几步建立和开始生产模型,”Veeramachaneni说。其中没有一个是“假设”。


免责声明:本文由用户上传,如有侵权请联系删除!

最新文章

精彩推荐

图文推荐

点击排行

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ   备案号:

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。

邮箱:toplearningteam#gmail.com (请将#换成@)