黄河&霍秉杰 

青云科技 & 极视角科技

即将开始的GIAC课程

基于 Kubernetes 的云原生 AI 平台建设

云原生

2021-07-31 10:00--11:00

案例背景:
极栈 AI 平台 v1.0 是使用容器方式挂载指定GPU来分配算力,容器内置 Jupyter 在线IDE实现和开发者交互,开发者完成算法训练。随着算法开发需求越来越多,同时数据集是由用户真实场景提供,算法开发人员来自外部; 如何将算力资源利用率最大化,如何让外部算法开发人员完成训练又保障算法需求方客户数据集不外泄,如何低人力成本评估成千上万个算法的质量,一系列问题急需一套完整解决方案。

解决思路:
通过引入 KubeSphere 作为 AI 平台的底座,基于 KubeSphere 的监控、告警、日志、事件与审计系统打造数据沙盒的核心组件包括训练、测试监控系统等;
制定算法输入输出标准,基于算法输出路由机制解析输出等来实现自动评估算法精度、 性能等核心指标;
基于 QingStor NeonSAN 分布式存储系统实现 AI 平台各类数据集、模型、容器镜像、代码等数据的可靠存储和生命周期管理。

成果:
1. 算力资源排队机制,用完即释放,GPU 资源利用率提升 30%;
2. 数据沙盒实现了十万级的训练和万级测试数据和开发者完全隔离,只开放百级的样例集;
3. 自动测试系统提升了测试效率 80%,并提高了算法迭代效率 30%;
4. 基于 QingStor NeonSAN,4 场国内大型AI竞赛存储相关模块 0 故障。

黄河,深圳极视角科技有限公司技术合伙人。霍秉杰,KubeSphere架构师。

即将开始的GIAC课程

基于 Kubernetes 的云原生 AI 平台建设

云原生

2021-07-31 10:00--11:00

案例背景:
极栈 AI 平台 v1.0 是使用容器方式挂载指定GPU来分配算力,容器内置 Jupyter 在线IDE实现和开发者交互,开发者完成算法训练。随着算法开发需求越来越多,同时数据集是由用户真实场景提供,算法开发人员来自外部; 如何将算力资源利用率最大化,如何让外部算法开发人员完成训练又保障算法需求方客户数据集不外泄,如何低人力成本评估成千上万个算法的质量,一系列问题急需一套完整解决方案。

解决思路:
通过引入 KubeSphere 作为 AI 平台的底座,基于 KubeSphere 的监控、告警、日志、事件与审计系统打造数据沙盒的核心组件包括训练、测试监控系统等;
制定算法输入输出标准,基于算法输出路由机制解析输出等来实现自动评估算法精度、 性能等核心指标;
基于 QingStor NeonSAN 分布式存储系统实现 AI 平台各类数据集、模型、容器镜像、代码等数据的可靠存储和生命周期管理。

成果:
1. 算力资源排队机制,用完即释放,GPU 资源利用率提升 30%;
2. 数据沙盒实现了十万级的训练和万级测试数据和开发者完全隔离,只开放百级的样例集;
3. 自动测试系统提升了测试效率 80%,并提高了算法迭代效率 30%;
4. 基于 QingStor NeonSAN,4 场国内大型AI竞赛存储相关模块 0 故障。

CopyRight © 2008-2021 Msup & 高可用架构

京ICP备09001521号