大规模分布式深度神经网络训练系统中的通信优化

案例来源:商汤科技
会议地点:深圳
分享时间: 2019-06-23 16:50-17:50

孙鹏  |

商汤科技 高级研究员

孙鹏于2018年获得新加坡南洋理工大学计算机科学专业博士学位,现担任商汤科技高级研究员。目前主要在商汤科技负责大规模深度学习训练、超算云平台等相关工作,研究兴趣包括大规模分布式计算,数据中心网络,软件定义网络等。其数据中心网络优化与能耗优化的工作分别在2013和2015年获取Datacenter Dynamics Asia Pacific Award。

课程概要

案例背景介绍:
大规模深度神经网络的训练过程中通信开销将会严重降低集群训练的整体性能。在百卡规模训练场景下,GPU集群的计算资源整体利用率甚至达不到50%。因此需要优化分布式训练系统的通信组件,降低网络开销,提升大规模训练系统的性能。

解决思路/成功要点:
通过延迟通信和粗粒度稀疏通信技术,提高分布式训练系统的带宽利用率和降低网络流量,从而降低训练过程中的通信开销。

成果:
集群训练系统扩展到512卡规模,在ImageNet/AlexNet训练场景下达到1s/epoch的性能。

听众收益

1)深度神经网络训练过程中的通信过程;2)现阶段深度神经网络训练系统的通信组件的实现;3)深度神经网络训练系统的通信优化技巧。

孙鹏  |

商汤科技
高级研究员

孙鹏于2018年获得新加坡南洋理工大学计算机科学专业博士学位,现担任商汤科技高级研究员。目前主要在商汤科技负责大规模深度学习训练、超算云平台等相关工作,研究兴趣包括大规模分布式计算,数据中心网络,软件定义网络等。其数据中心网络优化与能耗优化的工作分别在2013和2015年获取Datacenter Dynamics Asia Pacific Award。

课程概要

案例背景介绍:
大规模深度神经网络的训练过程中通信开销将会严重降低集群训练的整体性能。在百卡规模训练场景下,GPU集群的计算资源整体利用率甚至达不到50%。因此需要优化分布式训练系统的通信组件,降低网络开销,提升大规模训练系统的性能。

解决思路/成功要点:
通过延迟通信和粗粒度稀疏通信技术,提高分布式训练系统的带宽利用率和降低网络流量,从而降低训练过程中的通信开销。

成果:
集群训练系统扩展到512卡规模,在ImageNet/AlexNet训练场景下达到1s/epoch的性能。

听众收益

1)深度神经网络训练过程中的通信过程;2)现阶段深度神经网络训练系统的通信组件的实现;3)深度神经网络训练系统的通信优化技巧。

CopyRight © 2008-2019 Msup & 高可用架构