2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)
来自加州大学伯克利分校,加州大学戴维斯分校和德克萨斯高级计算中心(TACC)的一组研究人员发表了一项研究结果,旨在利用超级计算机的力量训练深度神经网络(DNN)的图像迅速认识。
研究人员在TACC 的Stampede2超级计算机上有效地使用了1024个Skylake处理器,在11分钟内完成了与AlexNet的100-epoch ImageNet培训 - 这是迄今为止记录的最快时间。使用1600个Skylake处理器,他们还在32分钟内完成了使用ResNet-50的90年代ImageNet培训,击败了Facebook的先前结果,对于批量超过20,000的批次,他们的准确性远高于Facebook的。(近年来,ImageNet基准测试 - 一种专为图像识别研究而设计的可视化数据库 - 在评估DNN培训的不同方法方面发挥了重要作用。)
在Stampede2上使用512个Intel Xeon Phi芯片,他们在24分钟内完成了100个纪元的AlexNet,并在60分钟内完成了90个纪元的ResNet-50。
“这些结果表明,使用先进的计算资源,如TACC,以及大型小批量启用算法,以交互方式和分布式方式训练深度神经网络的潜力,”TACC研究科学家赵章说。领先的超级计算中心。“鉴于我们庞大的用户群和巨大的容量,这将对科学产生重大影响。”
他们于2017年11月在Arxiv上公布了他们的结果。
DNN培训系统实现了最先进的“前1”测试准确度,这意味着模型应答(概率最高的那个)的情况的百分比恰好是预期的答案。使用ResNet-50(微软开发的卷积神经网络赢得了2015年ImageNet大规模视觉识别竞赛并超越了ImageNet数据集中的人类表现),他们实现了超过75%的准确率 - 与Facebook和亚马逊的批量培训水平相当。在这项工作中,将数据的批量大小缩放到32,000只会损失0.6%的前1精度。
相对较慢的训练速度会影响科学的速度,以及研究人员愿意探索的那种科学。谷歌的研究人员指出,如果培训神经网络需要一到四天的时间,研究人员认为这是可以容忍的。如果需要一到四周,该方法将仅用于高价值实验。如果需要一个多月,科学家们甚至都不会尝试。如果研究人员能够在喝咖啡休息期间完成培训过程,那么它将显着提高他们的生产力。
该小组的突破涉及层智能自适应速率调整(LARS)算法的开发,该算法能够有效地将数据分发到多个处理器,以使用比批量大小更多的项目(最多32,000个项目)同时进行计算。
LARS在一个前向/后向传递中包含更多训练示例,并根据从前一次迭代中收集的度量自适应地调整神经网络的每一层之间的学习速率。
由于这些变化,他们能够利用Stampede2上提供的大量Skylake和Intel Xeon Phi处理器,同时保持准确性,而以前的大批量方法则不然。
“对于深度学习应用程序,更大的数据集和更大的模型可以显着提高准确性,但代价是延长培训时间,”加州大学伯克利分校数学与计算机科学教授James Demmel说。“使用LARS算法,由Y. You与B. Ginsburg和I. Gitman在NVIDIA实习期间共同开发,使我们能够保持准确度,即使批量为32K。这种大批量的尺寸使我们能够有效地使用分布式系统,并在1024 Skylake处理器上使用AlexNet在11分钟内完成ImageNet培训,这是对先前结果的重大改进。
这些发现显示了使用专用硬件(GPU,Tensor Flow芯片,FPGA或其他新兴架构)进行深度学习的趋势的替代方案。该团队编写了基于Caffe的代码,并使用了支持多节点培训的Intel-Caffe。
深度神经网络的训练阶段通常是深度学习中最耗时的部分。直到最近,由加州大学伯克利分校领导的团队完成的过程将花费数小时或数天。快速分布式培训的进步将影响科学的速度,以及研究人员可以用这些新方法探索的科学类型。
该实验是TACC更广泛努力的一部分,用于测试CPU硬件在深度学习和机器学习应用程序和框架(包括Caffe,MXNet和TensorFlow)中的适用性。
TACC的专家展示了在使用resNet-50处理器将Caffe扩展到1024个Skylake处理器时,该框架的运行效率约为73%,比单个Skylake处理器快750倍。
“使用商用HPC服务器在大量数据集上快速训练深度学习算法是测量和模拟研究的强大新工具,”TACC数据密集计算总监Niall Gaffney说。“通过不必在专用硬件系统之间迁移大型数据集,减少了数据驱动发现的时间,并且可以显着提高整体效率。”
随着研究人员和科学学科越来越多地使用机器和深度学习从大规模实验和模拟数据集中提取见解,拥有能够处理这种工作量的系统非常重要。
最近的研究结果表明,现在可以通过Stampede2等国家先进的计算资源向开放科学界提供此类系统。
2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)