专题出品人: 董西成

快手 数据中台工具链方向的技术负责人

专题:数据中台

本专题下的议题

美图数据中台建设实践(在线直播)
陈满意 美图公司 高级技术经理
所属专题:数据中台

课程概要

案例背景:
随着公司发展,业务场景不断变多、数据量不断增长,公司在数据应用面临着计算压力、新老业务系统兼容、定制性需求增多变快、计算资源整合等问题,因此公司急需一套简单易用的大数据平台来解决上述问题。

解决思路:
通过不断演进大数据平台,集数据采集、数据计算分析、数据质量管理、可视化为一体。通过数据质量管理平台,对埋点进行管理、监控、云控、调试等,保证数据质量和开发效率。同时数据平台在计算方面整合各类离线和实时计算引擎,提供了智能化调度,在数据方面提供元数据信息、血缘关系、使用信息,操作上也实现了sql和简单、工程化方式并存,并且进行拖拽即可实现可视化报表需求。当然,在计算效率与成本方面我们也踩一些坑,最后通过计算引擎优化、数据管理,也实现了比较好的收益。

成果:
目前美图大数据平台解决多场景数据应用需求,加快了需求的迭代速度,绝大部分场景都可以通过简单的界面操作或者sql解决,同时支持用户以工程方式接入。

听众收益

1、对大数据的采集、计算、可视化集成等有一定程度的了解
2、熟悉大数据平台的建设实践、常见痛点和解决方案
3、了解大数据平台资源运用与成本控制的主要优化手段

数据中台模式下海量任务的高效研发和运维管理
郭忆 网易 网易数据科学中心 大数据专家 网易有数产品负责人
所属专题:数据中台

课程概要

案例背景:
数据中台的核心在于数据模型的复用,打破原有的烟囱式的开发模式,通过抽象公共数据层,将数据以服务化的方式在不同的数据产品之间进行共享。所以在数据中台的模式下,大数据任务之间存在高度复杂的依赖关系,就像一张大网,一个任务异常,可能会导致下游很多模型和指标,这就对大数据任务的研发和运维管理带来诸多挑战:

1. 如何选择一个成熟的开源调度系统,支撑数据中台的海量任务调度?
2. 如何实现海量任务的精细化运维和管理
3. 如何保障质量的前提下,实现研发效率的最大化
4. 如何在资源隔离的前提下,实现高效的数据测试?

解决思路:
本次分享,将结合网易在数据中台构建过程中遇到的真实案例,为大家介绍网易在海量任务高效研发和运维管理方面的实践。网易任务调度系统基于开源azkaban项目进行深度改造,包括:新增“跨流依赖”、“并发链式补数据”、“节点前后置动作”、“公共资源”等特性;同时针对 Azkaban 服务在运维能力的不足,实现了“高可用”、“平滑升级”。基于 Azkaban之上,我们搭建了智能任务运维中心系统,提供了基线预警、任务智能诊断、全链路影响分析、关键链路分析、冻结池、加速器等特性,保障了数据中台每天能够按时、正确的产出数据。同时,网易还在大数据研发领域,构建了数据测试中心,实现了大数据研发的CI/CD devops pipleline,在数据研发效率和质量方面做了最佳实践探索。


成果:
1. 网易Azkaban 每日有20W的任务调度,有1W多任务依赖关系。
2. 任务运维中心,帮助严选构建了基于基线的任务管理模式,基于基线预警的能力,实现了8W任务的精细化管理,任务完成率达到了96.14%,首次实现了S级大促数据零延迟。
3. 通过构建CI/CD Devops pipleline, 同时数据质量的问题下降了60%。
4. 通过数据沙箱的构建,在物理集群完全隔离的前提下,实现了一套代码,透明发布,任务发布效率提升300%。

听众收益

1. 对大数据海量任务调度系统的架构设计,关键技术实现,技术选型有深入的理解。
2. 对数据中台模式下,大量任务高度依赖,如何管理这些任务,确保任务正确、按时产出,提供了新的思路。
3. 对如何保障质量的前提下,如何实现敏捷的大数据开发,打造CI/CD Pilpleline有深入的掌握。

快手一站式智能数据生产平台
董西成 快手 数据中台工具链方向的技术负责人
所属专题:数据中台

课程概要

快手数据中台部门为全公司提供了丰富的数据内容与服务,在质量、成本、效率和安全等方面进行数据保障,而一站式智能数据生产平台则是非常核心的平台,它集数据接入、离线/实时开发、数据消费、数据管理、资源管控和治理为一体,提供可靠、易用、高效、安全的大数据生产解决方案,本主题将详细介绍快手在该领域的最佳实战及经验。

听众收益

字节跳动数据中台演进之路
王宇飞 Bytedance 数据平台-开发套件方向负责人
所属专题:数据中台

课程概要

案例背景:
在字节跳动的快速发展过程中,在不同的阶段,我们遇到的挑战不同。这期间我们经历了,从解决数据数据接入与研发生产效率,到提升资产与安全管理能力,以及符合字节业务场景的数据治理能力,到目前我们正在把内部沉淀的这一套大数据研发与治理解决方案能力对外输出,希望能帮助更多行业构建好自己的数据中台,数据驱动业务增长。

解决思路:
针对字节跳动的业务场景,围绕大数据生产建设全链路,在埋点管理,数据集成,研发平台,资产管理,数据安全,数据治理等多个方向深入探索,逐渐形成一套完善,高效的产品体系。

成果:
形成了Dataleap一站式数据中台套件解决方案,支撑字节跳动内各业务的数据建设与治理工作。详情:https://www.volcengine.com/product/dataleap

听众收益

对字节跳动数据中台解决方案有全面了解,对构建自己的数据中台产品与系统有一定借鉴作用
针对数据建设与治理全链路上的核心挑战点,了解相关解决方案
了解业务快速发展下数据治理的解决方案

快手数据中台工具链方向的技术负责人,之前就职于Hulu,负责大数据&AI基础架构方向,有超过8年的大数据架构研发经验,目前专注于数据中台的探索和实践。大数据书籍《Hadoop技术内幕》和《大数据技术体系详解》的作者。资深Hadoop技术实践者和研究者,拥有超过8年的大数据平台平台研发经验;曾在中国云计算大会(CieCloud),世界软件大会(WOT),中国架构师大会(SACC)等担任主持人和演讲嘉宾;《Hadoop技术内幕》系列丛书作者。

专题:数据中台

CopyRight © 2008-2021 Msup & 高可用架构

京ICP备09001521号