张杰 |
阿里巴巴 阿里云机器学习平台-高级技术专家
长期从事云计算、深度学习相关方向,擅长深度学习平台,超大规模模型训练、通信优化等领域。深度参与阿里云MaxCompute、PAI平台的建设,负责PAI平台深度学习训练框架,主导统一多种并行策略的分布式训练框架Whale的研发和建设。
课程概要
案例背景
最近,我们和达摩院智能计算实验室并联合清华大学等共同开发了全球最大规模的中文多模态预训练模型,M6(MultiModality-to-MultiModality Multitask Mega-transformer)。模型参数超1万亿规模,借助PAI自研的分布式训练框架Whale,首次2天内在496 GPU卡上完成M6模型1亿图文样本的预训练。这里为大家介绍Whale分布式训练框架,以及如何借助Whale来高效训练超大规模模型。
解决思路
对于超大规模模型M6,采用Whale的数据并行+模型并行的分布式策略进行训练。结合MoE结构来优化超大模型对算力的需求,并通过计算、显存、通信优化来提高分布式训练效率。
成果
我们和达摩院智能计算实验室并联合清华大学等共同开发了全球最大规模的中文多模态预训练模型,M6(MultiModality-to-MultiModality Multitask Mega-transformer)。模型参数超1万亿规模,借助PAI自研的分布式训练框架Whale,首次2天内在496 GPU卡上完成M6模型1亿图文样本的预训练。
听众收益
了解深度学习各种并行训练模式;
了解超大规模模型预训练的挑战和解决方案;
了解M6模型和高效分布式训练方法;
张杰 |
阿里巴巴
阿里云机器学习平台-高级技术专家
长期从事云计算、深度学习相关方向,擅长深度学习平台,超大规模模型训练、通信优化等领域。深度参与阿里云MaxCompute、PAI平台的建设,负责PAI平台深度学习训练框架,主导统一多种并行策略的分布式训练框架Whale的研发和建设。
课程概要
案例背景
最近,我们和达摩院智能计算实验室并联合清华大学等共同开发了全球最大规模的中文多模态预训练模型,M6(MultiModality-to-MultiModality Multitask Mega-transformer)。模型参数超1万亿规模,借助PAI自研的分布式训练框架Whale,首次2天内在496 GPU卡上完成M6模型1亿图文样本的预训练。这里为大家介绍Whale分布式训练框架,以及如何借助Whale来高效训练超大规模模型。
解决思路
对于超大规模模型M6,采用Whale的数据并行+模型并行的分布式策略进行训练。结合MoE结构来优化超大模型对算力的需求,并通过计算、显存、通信优化来提高分布式训练效率。
成果
我们和达摩院智能计算实验室并联合清华大学等共同开发了全球最大规模的中文多模态预训练模型,M6(MultiModality-to-MultiModality Multitask Mega-transformer)。模型参数超1万亿规模,借助PAI自研的分布式训练框架Whale,首次2天内在496 GPU卡上完成M6模型1亿图文样本的预训练。
听众收益
了解深度学习各种并行训练模式;
了解超大规模模型预训练的挑战和解决方案;
了解M6模型和高效分布式训练方法;