虎牙大数据融合云架构

专题：云上运维
案例来源：前广州虎牙

会议地点：深圳
分享时间： 2021-07-30 10:00-11:00

虎牙大数据融合云架构

案例来源：前广州虎牙
会议地点：深圳
分享时间： 2021-07-30 10:00-11:00

陈仕明 |

前广州虎牙高级技术经理

擅长大数据领域内的系统设计和数据建模，从04年毕业开始即接触数据仓库，在大数据相关行业耕耘20年；拥有从传统行业数仓(华为财经业务),互联网产品研发(迅雷数字商城，支付平台等)，互联网大数据数仓及平台建设(迅雷、虎牙)多领域的技术经验，具有较大规模数据平台的全链路建设和管理经验(10万Core CPU，百P数据规模);且得益于带领AI平台团队和AIOps团队，以及和容器团队的长期深度合作，对容器、AI以及主流云产商拥有一定认知了解

课程概要

案例背景:
因为数据需要关联分析，才更能发挥其价值，因此决定了大数据更适合于集中式的存储与计算，但是当其集中于单一机房时，必然面临机房容量上限，当不得不新增或搬迁机房，如何提高1-2个季度的迁移效率？无法预测的任务重跑和突发的adhoc大查询，如何能够快速的交付算力，从而不影响用户体验？月报、季报、年报时，这类短暂的算力需求之后，算力能否快速缩容，从而节省IT成本？公有云上，产商的先进的技术能力是否能够被快速应用到企业中，但是又不想被单一给产商绑定，做到随时上云/下云/迁云？虎牙大数据融合云的方案中，这些问题都将给出解决方案

解决思路:
在虎牙的大数据融合项目中，我们基于hadoop和公有云的对象存储，其上构建融合云大数据存储，解决数据的多副本异地异构就近读写问题；通过采集任务的读写IO、算力消耗，结合任务依赖链，使用算法动态对周期任务进行分簇，尽量降低簇间数据交换，以簇为单位进行任务调度；

成果：
依托此系统，目前虎牙大数据跑在三个IDC机房和一个云上机房，扩机房的迁移/扩容分钟内完成，对上游数据开发完全透明；同时在2020年年报以及2021春节期间，以及多次临时的adhoc大查询，通过公有云算力可一小时内快速扩缩容；通过融合云存储，冷数据被编排存储到公有云廉价存储中，大幅节省降低存储成本

听众收益

1、大数据的迁移，提供了新的思路，不用在脱着数据开发折腾半年
2、如何解决大数据算力交付的效率，避免用户愿意花钱，你也搞不定的尴尬
3、如何更好的利用好公有云上的算力和技术优势，而又不用担心被产商绑定

虎牙大数据融合云架构

专题：云上运维
案例来源：前广州虎牙

会议地点：深圳
分享时间： 2021-07-30 10:00-11:00

虎牙大数据融合云架构

陈仕明 |

前广州虎牙高级技术经理

课程概要

听众收益

陈仕明 |

前广州虎牙
高级技术经理

课程概要

听众收益

从「迁移上云」到「坐稳云端」-- 美图服务迁云案例分享

石鹏(东方德胜)