数据中台模式下海量任务的高效研发和运维管理

案例来源:网易
会议地点:深圳
分享时间: 2021-07-31 14:30-15:30

郭忆  |

网易 网易数据科学中心 大数据专家 网易有数产品负责人

郭忆,网易大数据产品负责人,网易高级技术专家,十年互联网数据研发和管理的经验,极客时间《数据中台实战课》作者,订阅量超过5700+。支撑了网易云音乐、严选、新闻、有道数据中台的建设,沉淀出网易数据中台建设的方法论和支撑技术体系。在InfoQ、AI在线发表《网易数据中台实践》文章,阅读量超过1W+。

课程概要

案例背景:
数据中台的核心在于数据模型的复用,打破原有的烟囱式的开发模式,通过抽象公共数据层,将数据以服务化的方式在不同的数据产品之间进行共享。所以在数据中台的模式下,大数据任务之间存在高度复杂的依赖关系,就像一张大网,一个任务异常,可能会导致下游很多模型和指标,这就对大数据任务的研发和运维管理带来诸多挑战:

1. 如何选择一个成熟的开源调度系统,支撑数据中台的海量任务调度?
2. 如何实现海量任务的精细化运维和管理
3. 如何保障质量的前提下,实现研发效率的最大化
4. 如何在资源隔离的前提下,实现高效的数据测试?

解决思路:
本次分享,将结合网易在数据中台构建过程中遇到的真实案例,为大家介绍网易在海量任务高效研发和运维管理方面的实践。网易任务调度系统基于开源azkaban项目进行深度改造,包括:新增“跨流依赖”、“并发链式补数据”、“节点前后置动作”、“公共资源”等特性;同时针对 Azkaban 服务在运维能力的不足,实现了“高可用”、“平滑升级”。基于 Azkaban之上,我们搭建了智能任务运维中心系统,提供了基线预警、任务智能诊断、全链路影响分析、关键链路分析、冻结池、加速器等特性,保障了数据中台每天能够按时、正确的产出数据。同时,网易还在大数据研发领域,构建了数据测试中心,实现了大数据研发的CI/CD devops pipleline,在数据研发效率和质量方面做了最佳实践探索。


成果:
1. 网易Azkaban 每日有20W的任务调度,有1W多任务依赖关系。
2. 任务运维中心,帮助严选构建了基于基线的任务管理模式,基于基线预警的能力,实现了8W任务的精细化管理,任务完成率达到了96.14%,首次实现了S级大促数据零延迟。
3. 通过构建CI/CD Devops pipleline, 同时数据质量的问题下降了60%。
4. 通过数据沙箱的构建,在物理集群完全隔离的前提下,实现了一套代码,透明发布,任务发布效率提升300%。

听众收益

1. 对大数据海量任务调度系统的架构设计,关键技术实现,技术选型有深入的理解。
2. 对数据中台模式下,大量任务高度依赖,如何管理这些任务,确保任务正确、按时产出,提供了新的思路。
3. 对如何保障质量的前提下,如何实现敏捷的大数据开发,打造CI/CD Pilpleline有深入的掌握。

郭忆  |

网易
网易数据科学中心 大数据专家 网易有数产品负责人

郭忆,网易大数据产品负责人,网易高级技术专家,十年互联网数据研发和管理的经验,极客时间《数据中台实战课》作者,订阅量超过5700+。支撑了网易云音乐、严选、新闻、有道数据中台的建设,沉淀出网易数据中台建设的方法论和支撑技术体系。在InfoQ、AI在线发表《网易数据中台实践》文章,阅读量超过1W+。

课程概要

案例背景:
数据中台的核心在于数据模型的复用,打破原有的烟囱式的开发模式,通过抽象公共数据层,将数据以服务化的方式在不同的数据产品之间进行共享。所以在数据中台的模式下,大数据任务之间存在高度复杂的依赖关系,就像一张大网,一个任务异常,可能会导致下游很多模型和指标,这就对大数据任务的研发和运维管理带来诸多挑战:

1. 如何选择一个成熟的开源调度系统,支撑数据中台的海量任务调度?
2. 如何实现海量任务的精细化运维和管理
3. 如何保障质量的前提下,实现研发效率的最大化
4. 如何在资源隔离的前提下,实现高效的数据测试?

解决思路:
本次分享,将结合网易在数据中台构建过程中遇到的真实案例,为大家介绍网易在海量任务高效研发和运维管理方面的实践。网易任务调度系统基于开源azkaban项目进行深度改造,包括:新增“跨流依赖”、“并发链式补数据”、“节点前后置动作”、“公共资源”等特性;同时针对 Azkaban 服务在运维能力的不足,实现了“高可用”、“平滑升级”。基于 Azkaban之上,我们搭建了智能任务运维中心系统,提供了基线预警、任务智能诊断、全链路影响分析、关键链路分析、冻结池、加速器等特性,保障了数据中台每天能够按时、正确的产出数据。同时,网易还在大数据研发领域,构建了数据测试中心,实现了大数据研发的CI/CD devops pipleline,在数据研发效率和质量方面做了最佳实践探索。


成果:
1. 网易Azkaban 每日有20W的任务调度,有1W多任务依赖关系。
2. 任务运维中心,帮助严选构建了基于基线的任务管理模式,基于基线预警的能力,实现了8W任务的精细化管理,任务完成率达到了96.14%,首次实现了S级大促数据零延迟。
3. 通过构建CI/CD Devops pipleline, 同时数据质量的问题下降了60%。
4. 通过数据沙箱的构建,在物理集群完全隔离的前提下,实现了一套代码,透明发布,任务发布效率提升300%。

听众收益

1. 对大数据海量任务调度系统的架构设计,关键技术实现,技术选型有深入的理解。
2. 对数据中台模式下,大量任务高度依赖,如何管理这些任务,确保任务正确、按时产出,提供了新的思路。
3. 对如何保障质量的前提下,如何实现敏捷的大数据开发,打造CI/CD Pilpleline有深入的掌握。

CopyRight © 2008-2021 Msup & 高可用架构

京ICP备09001521号