深度学习演算法接近线性微缩效率
2017-09-21
IBMResearch在深度学习演算法取得最新突破,据称几乎达到了线性加速的最佳微缩效率目标…
IBM Research发表深度学习(deep learning)演算法的最新突破,据称几乎达到了理想微缩效率的神圣目标:新的分散式深度学习(DDL)软体可随着处理器的增加,实现趋近于线性加速的最佳效率。
如图1所示,这一发展旨在为添加至IBM分散式深度学习演算法的每一个伺服器,实现类似的加速效率。
IBM研究人员兼IBM Research加速认知基础设施部门总监Hillman Hunter认为,其目标在于“将与深度学习训练有关的等待时间,从几天或几小时减少到几分钟或甚至几秒钟。”
Hunter在一篇有关这项深度学习发展的部落格文章中指出,“最受欢迎的深度学习架构开始扩展到伺服器中的多个绘图处理器(GPU),而非使用GPU的多个伺服器。”IBM的开发团队“为连接至数十个伺服器的上百个GPU加速器所需的庞大、复杂运算任务,编写了自动化与最佳化其平行任务的软体与演算法。”
深度学习演算法随GPU增加而趋近于线性加速效率 (来源:IBM)
IBM声称,使用开放源码的Caffe深度学习架构,可将最多达256个Nvidia Tesla P100 GPU添加至单一伺服器,最终达到了95%微缩效率的测试结果。这一测试结果可用于影像辨识学习,但预计也适用于类似的学习任务。IBM在50分钟的训练时间内达到了接近线性的微缩效率。在相同的训练数据集时,Facebook Inc.先前曾经在60分钟的训练时间内实现89%的效率。
而在ImageNet-22k的数据组合下,IBM声称可在7个小时、750万张影像的训练中,达到了33.8%的验证精确度;在相同的条件下,微软(Microsoft Corp.)原先的记录是在10天训练中达到29.8%的准确率。IBM的处理器——PowerAI平台,可支援64节点的Power8丛集(加上256个Nvidia GPU),提供超过2PFLOPS的单精度浮点性能。
该公司正为PowerAI平台用户免费提供其分散式深度学习套件,同时,还为第三方开发人员提供各种应用的编程介面,让他们能选择与其应用最相关的底层演算法。