【AI星球(微信ID:ai_xingqiu)】8月18日报道(编译:福尔摩望)
IBM近日推出了一项新技术,通过将大量功能强大的硬件应用于任务,大大减少了对分布式深度学习(DDL)系统进行训练的时间。它通过优化运行在深层神经网络硬件组件之间的数据传输来实现。
IBM正在努力解决的关键问题是分布式深度学习系统中的网络瓶颈。虽然在多台计算机上训练深层神经网络可以分散计算负载,但是由于执行实际计算的硬件之间的高延迟连接,使得这一过程变得越来越低效。
IBM推出的PowerAI DDL旨在通过确保系统在所有高性能连接方面得到充分利用来实现效率提高。通过使用PowerAI DDL,IBM能够在50分钟内使用64台服务器(每台服务器具有4个GPU),在ImageNet数据集上训练颇受欢迎的Resnet-50深层神经网络。
拥有足够硬件的组织可以充分利用PowerAI DDL的性能,也能够看到在实验运行时间上的巨大提升。如果实验运行速度更快,那么科学家可以做更多的工作,从而产生更好的结果。
IBM的通信库也作为PowerAI软件包的一部分一起公布了。该软件包让数据科学家和工程师能够在科技巨头的高性能动力系统上执行机器学习任务。
该公司使用64台Power8 S822LC服务器进行测试,每台服务器都装有4台Nvidia Tesla P100-SXM2 GPU。虽然硬件要求很昂贵,但是对于有充足资金的组织来说,满足自身高性能AI计算的需求才是最重要的。鉴于该软件包需要在Power Systems硬件上运行,通过PowerAI发布技术应该会让人们更容易的享受到IBM研究的优势。
然而,这也是有代价的。IBM仅为自己的硬件发布了PowerAI DDL,也不打算开源系统代码,这让该系统无法在其他平台上实现。这与Facebook本月早些时候发布的分布式神经网络优化研究结果形成对比。这家社交网络巨头公布了其代码,可以让其他组织在开源许可证下实现1小时内在256个GPU上训练Resnet-50。
IBM这次一反常态,不再将有关深度学习计划的代码开源。
虽然两家公司对开源的态度各异,但是两家公司所提供的论文都反映了深度学习研究的一个重要前沿。两家公司的研究成果都表明,在提高机器学习系统的速度方面还有很多工作要做。机器学习系统速度的提升将有利于其他应用的发展,可能产生更大的后续影响。
需要注意的是,虽然将训练Resnet作为基准是有用的,但是目前尚不清楚这些结果该如何转变成其他应用。虽然在IBM论文中提到的技术可以提供额外的性能优势,但是该公司尚未对此进行广泛的测试。