陈仕明 |
虎牙科技 基础保障部/计算平台组技术总监
在数据领域精耕十余年,从传统企业的数仓,到互联网大数据,从开始的oracle、datastage,到hadoop、spark、flink,经历了大数据在国内的技术发展。熟悉分布式存储、计算的原理及实现
课程概要
案例背景:
因为数据需要关联分析,才更能发挥其价值,因此决定了大数据更适合于集中式的存储与计算,但是当其集中于单一机房时,必然面临机房容量上限,当不得不新增或搬迁机房,如何提高1-2个季度的迁移效率?无法预测的任务重跑和突发的adhoc大查询,如何能够快速的交付算力,从而不影响用户体验?月报、季报、年报时,这类短暂的算力需求之后,算力能否快速缩容,从而节省IT成本?公有云上,产商的先进的技术能力是否能够被快速应用到企业中,但是又不想被单一给产商绑定,做到随时上云/下云/迁云?虎牙大数据融合云的方案中,这些问题都将给出解决方案
解决思路:
在虎牙的大数据融合项目中,我们基于hadoop和公有云的对象存储,其上构建融合云大数据存储,解决数据的多副本异地异构就近读写问题;通过采集任务的读写IO、算力消耗,结合任务依赖链,使用算法动态对周期任务进行分簇,尽量降低簇间数据交换,以簇为单位进行任务调度;
成果:
依托此系统,目前虎牙大数据跑在三个IDC机房和一个云上机房,扩机房的迁移/扩容分钟内完成,对上游数据开发完全透明;同时在2020年年报以及2021春节期间,以及多次临时的adhoc大查询,通过公有云算力可一小时内快速扩缩容;通过融合云存储,冷数据被编排存储到公有云廉价存储中,大幅节省降低存储成本
听众收益
1、大数据的迁移,提供了新的思路,不用在脱着数据开发折腾半年
2、如何解决大数据算力交付的效率,避免用户愿意花钱,你也搞不定的尴尬
3、如何更好的利用好公有云上的算力和技术优势,而又不用担心被产商绑定
陈仕明 |
虎牙科技
基础保障部/计算平台组技术总监
在数据领域精耕十余年,从传统企业的数仓,到互联网大数据,从开始的oracle、datastage,到hadoop、spark、flink,经历了大数据在国内的技术发展。熟悉分布式存储、计算的原理及实现
课程概要
案例背景:
因为数据需要关联分析,才更能发挥其价值,因此决定了大数据更适合于集中式的存储与计算,但是当其集中于单一机房时,必然面临机房容量上限,当不得不新增或搬迁机房,如何提高1-2个季度的迁移效率?无法预测的任务重跑和突发的adhoc大查询,如何能够快速的交付算力,从而不影响用户体验?月报、季报、年报时,这类短暂的算力需求之后,算力能否快速缩容,从而节省IT成本?公有云上,产商的先进的技术能力是否能够被快速应用到企业中,但是又不想被单一给产商绑定,做到随时上云/下云/迁云?虎牙大数据融合云的方案中,这些问题都将给出解决方案
解决思路:
在虎牙的大数据融合项目中,我们基于hadoop和公有云的对象存储,其上构建融合云大数据存储,解决数据的多副本异地异构就近读写问题;通过采集任务的读写IO、算力消耗,结合任务依赖链,使用算法动态对周期任务进行分簇,尽量降低簇间数据交换,以簇为单位进行任务调度;
成果:
依托此系统,目前虎牙大数据跑在三个IDC机房和一个云上机房,扩机房的迁移/扩容分钟内完成,对上游数据开发完全透明;同时在2020年年报以及2021春节期间,以及多次临时的adhoc大查询,通过公有云算力可一小时内快速扩缩容;通过融合云存储,冷数据被编排存储到公有云廉价存储中,大幅节省降低存储成本
听众收益
1、大数据的迁移,提供了新的思路,不用在脱着数据开发折腾半年
2、如何解决大数据算力交付的效率,避免用户愿意花钱,你也搞不定的尴尬
3、如何更好的利用好公有云上的算力和技术优势,而又不用担心被产商绑定