基于Volcano优化机器学习、深度学习的性能

案例来源:华为云计算技术有限公司
会议地点:深圳
分享时间: 2020-08-15 13:30-14:30

王雷博  |

华为云计算技术有限公司 华为云云原生团队 架构师

华为云容器部门架构师、Volcano开源项目核心成员。先后就职于Platform computing, IBM等公司。 拥有10+大规模分布式计算、高性能计算领域经验。熟悉云原生、大数据以及AI加速等领域。专注 于大规模集群资源管理、调度、作业调度引擎的设计开发。 目前主要负责Volcano云原生批量计算平台的研发工作。Volcano社区致力于在Kubernetes上构建一个 批处理调度系统,提供高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。Volcano目前已成为CNCF沙箱项目,广泛应用在大数据、AI、基因容器等服务领域。

课程概要

案例背景:
随着人工智能的普及,机器学习、深度学习已经被广泛应用于各个行业。然后数据显示目前分布式训练在很多场景下依然面临复杂度高、训练效率达不到期望的状况。分布式训练的性能优化受到了越来越多的关注。华为云Volcano团队针对GPU利用率低、数据传输延迟、节点计算密度不足等场景进行了优化实践,提供了多种解决方案并取得了实质性的成果。

解决思路:
我们主要针对分布式训练的特点,主要从调度方面进行了优化,提供了组调度、binpack、拓扑调度、GPU共享等多种调度策略,有效缩短了分布式训练的时间。同时我们增强了分布式训练作业的生命周期管理,让分布式训练更简单、更高效。

成果:
优化后实际分布式训练性能提升30%以上

听众收益

1. 机器学习、深度学习平台优化经验
2. 基于Kubernetes的机器学习平台调度系统设计经验
3. 开源社区运作、参与经验

王雷博  |

华为云计算技术有限公司
华为云云原生团队 架构师

华为云容器部门架构师、Volcano开源项目核心成员。先后就职于Platform computing, IBM等公司。 拥有10+大规模分布式计算、高性能计算领域经验。熟悉云原生、大数据以及AI加速等领域。专注 于大规模集群资源管理、调度、作业调度引擎的设计开发。 目前主要负责Volcano云原生批量计算平台的研发工作。Volcano社区致力于在Kubernetes上构建一个 批处理调度系统,提供高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。Volcano目前已成为CNCF沙箱项目,广泛应用在大数据、AI、基因容器等服务领域。

课程概要

案例背景:
随着人工智能的普及,机器学习、深度学习已经被广泛应用于各个行业。然后数据显示目前分布式训练在很多场景下依然面临复杂度高、训练效率达不到期望的状况。分布式训练的性能优化受到了越来越多的关注。华为云Volcano团队针对GPU利用率低、数据传输延迟、节点计算密度不足等场景进行了优化实践,提供了多种解决方案并取得了实质性的成果。

解决思路:
我们主要针对分布式训练的特点,主要从调度方面进行了优化,提供了组调度、binpack、拓扑调度、GPU共享等多种调度策略,有效缩短了分布式训练的时间。同时我们增强了分布式训练作业的生命周期管理,让分布式训练更简单、更高效。

成果:
优化后实际分布式训练性能提升30%以上

听众收益

1. 机器学习、深度学习平台优化经验
2. 基于Kubernetes的机器学习平台调度系统设计经验
3. 开源社区运作、参与经验

CopyRight © 2008-2020 Msup & 高可用架构

京ICP备09001521号