即将开始的GIAC课程
百度大规模机器治理
软件性能
2019-06-21 11:00--12:00
案例背景介绍:
百度机器随着业务的不断增长机器最终增长到几十万台,随着云的发展,虚拟化、容器化发展也很快,百度12年开始研发了MATRIX 集群操作系统,而面对成千上万的机器,从人工、半自动到全自动化进行了转变,所以衍生出了百度的机器管理系统,由机器管理系统来进行机器治理,主要是治理模式是环境治理和流转治理,环境治理主要是对百度的服务器的单机agent托管、系统环境初始化、一致化的管理,流程治理主要是故障发现、维修、机器出入池流转的管理,其中的主要有大规模分布式系统的高可用和性能的挑战,也有对于升级效率和故障发现时效以及机器流转效率的挑战。此系统目前托管了百度几十万机器的流转以及环境治理,基础环境升级效率高、一致性强,流转效率高可无缝切换机器让百度的服务对机器无感知。
解决思路/成功要点:
机器治理主要是环境治理和流转治理,这两项中分别有一些挑战: 环境治理主要解决高可用、性能、效率、一致化这么几个问题,面临几十万机器的心跳和状态一致的优化 流转治理主要包括故障采集和分析、机器流转状态机、面对几十万机器性能瓶颈后对IO优化和分布式化的优化处理,可实现机器在分钟级可交付。
成果:
百度的matrix 单机环境可实现在半月内实验对比和更新完成,机器流转结合paas可实现故障早发现、内核可升级,机器整体在线率可达96%-98%以上,年可节约上千台机器。
百度基础架构部资深工程师,2013年加入百度,负责百度的HHVM 方向负责人,建设百度的HHVM 生态;负责百度的机器管理系统,负责几十万机器的环境治理和流转治理;负责百度PAAS 服务管理系统(solaria)、OXP 系统(托管贴吧、手百、地图、网盘、广告等服务的私有云)、PAAS 组件生态负责人;擅长性能优化、网络、分布式系统、编译方向、多次给开源社区进行共享代码。
即将开始的GIAC课程
百度大规模机器治理
软件性能
2019-06-21 11:00--12:00
案例背景介绍:
百度机器随着业务的不断增长机器最终增长到几十万台,随着云的发展,虚拟化、容器化发展也很快,百度12年开始研发了MATRIX 集群操作系统,而面对成千上万的机器,从人工、半自动到全自动化进行了转变,所以衍生出了百度的机器管理系统,由机器管理系统来进行机器治理,主要是治理模式是环境治理和流转治理,环境治理主要是对百度的服务器的单机agent托管、系统环境初始化、一致化的管理,流程治理主要是故障发现、维修、机器出入池流转的管理,其中的主要有大规模分布式系统的高可用和性能的挑战,也有对于升级效率和故障发现时效以及机器流转效率的挑战。此系统目前托管了百度几十万机器的流转以及环境治理,基础环境升级效率高、一致性强,流转效率高可无缝切换机器让百度的服务对机器无感知。
解决思路/成功要点:
机器治理主要是环境治理和流转治理,这两项中分别有一些挑战: 环境治理主要解决高可用、性能、效率、一致化这么几个问题,面临几十万机器的心跳和状态一致的优化 流转治理主要包括故障采集和分析、机器流转状态机、面对几十万机器性能瓶颈后对IO优化和分布式化的优化处理,可实现机器在分钟级可交付。
成果:
百度的matrix 单机环境可实现在半月内实验对比和更新完成,机器流转结合paas可实现故障早发现、内核可升级,机器整体在线率可达96%-98%以上,年可节约上千台机器。