专题出品人: 曲显平

百度 云原生和智能运维负责人

专题:云上运维

本专题下的议题

从「迁移上云」到「坐稳云端」-- 美图服务迁云案例分享
石鹏(东方德胜) 美图 运维部-SRE负责人
所属专题:云上运维

课程概要

案例背景:
2019年下半年,美图公司结合业界上云趋势、自身战略规划等多方面考虑,做出了迁移上云的决策。
美图的业务分布在异地的多个IDC,丰富的业务线和服务模块以及海量的业务数据,这些全都需要迁移到云上,并且需要保证迁移过程平滑、服务持续稳定。

解决思路:
1. 项目拆分、周密计划、拥抱变化、多套方案
2. 用数据驱动决策
3. 众多项目成员团结一致、精诚协作

成果:
1. 超预期提前完成了迁移工作
2. 通过云上的算力和弹性能力,提升了业务的性能和扩展能力
3. 通过资源利用率的提升、基础设施弹性能力的加持,促成了技术运营成本的下降
4. 运维人力得到释放,运维同学可以将更多的精力放在一些建设性工作上,可以更好的朝SRE的方向靠拢

听众收益

1. 业务迁移上云的通用思路及注意事项
2. 业务、数据、存储等几类典型迁移场景的实践案例
3. 云上监控、灾备、故障管理、成本优化、稳定性运营等典型运维工作的推进思路
4. 如何评估、决策业务迁移上云的一些方法
5. 保障迁移上云项目成功的必备因素

虎牙大数据融合云架构
陈仕明 广州虎牙科技 基础保障部/计算平台组技术总监
所属专题:云上运维

课程概要

案例背景:
因为数据需要关联分析,才更能发挥其价值,因此决定了大数据更适合于集中式的存储与计算,但是当其集中于单一机房时,必然面临机房容量上限,当不得不新增或搬迁机房,如何提高1-2个季度的迁移效率?无法预测的任务重跑和突发的adhoc大查询,如何能够快速的交付算力,从而不影响用户体验?月报、季报、年报时,这类短暂的算力需求之后,算力能否快速缩容,从而节省IT成本?公有云上,产商的先进的技术能力是否能够被快速应用到企业中,但是又不想被单一给产商绑定,做到随时上云/下云/迁云?虎牙大数据融合云的方案中,这些问题都将给出解决方案

解决思路:
在虎牙的大数据融合项目中,我们基于hadoop和公有云的对象存储,其上构建融合云大数据存储,解决数据的多副本异地异构就近读写问题;通过采集任务的读写IO、算力消耗,结合任务依赖链,使用算法动态对周期任务进行分簇,尽量降低簇间数据交换,以簇为单位进行任务调度;

成果:
依托此系统,目前虎牙大数据跑在三个IDC机房和一个云上机房,扩机房的迁移/扩容分钟内完成,对上游数据开发完全透明;同时在2020年年报以及2021春节期间,以及多次临时的adhoc大查询,通过公有云算力可一小时内快速扩缩容;通过融合云存储,冷数据被编排存储到公有云廉价存储中,大幅节省降低存储成本

听众收益

1、大数据的迁移,提供了新的思路,不用在脱着数据开发折腾半年
2、如何解决大数据算力交付的效率,避免用户愿意花钱,你也搞不定的尴尬
3、如何更好的利用好公有云上的算力和技术优势,而又不用担心被产商绑定

1w节点K8S集群的云原生混部运维与运营实践
星龙 百度 百度基础架构部云原生高级研发工程师
所属专题:云上运维

课程概要

案例背景:
随着百度云原生相关技术规模化落地, kubernetes 单集群规模日益增长, 成本管理以及稳定性体系建设势在必行

解决思路:
1. 在 1w+ 节点的单 kubernetes 集群建设中的一线案例与经验总结
2. 通过引入混部与质量分级提升 kubernetes 集群资源利用率

成果:
1. 逐步扩大单集群规模, 大幅提高集群稳定性
2. 大幅提高集群资源利用率以及资源质量

听众收益

1. 了解百度云原生的稳定性建设实践案例
2. 了解百度云原生的资源效能体系
3. 了解百度云原生的混部技术

2009年从复旦大学毕业加入百度,先后负责百度监控、部署、PaaS、智能运维、云原生等方向,构建了百度统一的自动化运维平台和云原生应用平台,提升业务迭代效率,降低运营成本,保障业务高可用和用户体验,其所带领的团队在相关领域顶级会议发表多篇重量级论文和演讲。

专题:云上运维

CopyRight © 2008-2021 Msup & 高可用架构

京ICP备09001521号