专题出品人: 范文臣

Databricks 开源组技术主管

专题:数据湖

本专题下的议题

数据湖的探索与落地实践
郑志升 B站 大数据平台,实时体系负责人
所属专题:数据湖

课程概要

案例背景:
1.传统大数据离线按天调度,如何通过增量生产解决数据高效产出
2.超大规模的数据upsert更新落地
3.传统数仓到湖仓一体的平滑过渡机制

解决思路:
flink,iceberg,hudi
1、数据ETL的痛点
2、基于数据湖的增量ETL
3、增量Append及Upsert的实现
4、未来展望

成果:
引入数据湖,打造湖仓一体,落地数据从ods到dw层的湖化,包括append以及upsert类型数据

听众收益

1.了解数据湖在数仓体系的一些落地应用场景
2.了解如何基于Flink结合Iceberg/Hudi构建一套通用的ETL增量管道
3.了解数据在万亿规模下如何打造高性能和高可用的综合型ETL管道化服务

使用Delta Lake构建湖仓一体
王耿亮 Databricks 资深工程师
所属专题:数据湖

课程概要

案例背景:
Databricks很多客户将各种各样的数据通过流写入到数据湖中,并且其通常需要支持实时数据查询、历史数据查询、数据回滚、增量修改等业务。理想的情况下数据湖的数据应该是可靠、高质量的,能够使用于推荐引擎和风险控制。如何帮助客户设计支持ACID的数据湖是一个很大的挑战。

解决思路:
Databricks使用基于Delta Lake的湖仓一体很好的解决了这个痛点。湖仓一体是融合数据湖和数据仓库优势的新型大数据方案。

成果:
目前有超过1000个客户都在使用Delta Lake,并且很多客户表示使用Delta Lake大大缩减了平台成本和提高了数据质量。
听众收益
1. 构建湖仓一体过程中的痛点以及Delta Lake如何解决问题
2. Delta Lake原理简单介绍
3. 通过Demo直观了解以上内容

听众收益

1. 构建数据湖过程中的痛点以及Delta Lake如何解决问题
2. Delta原理简单介绍
3. 通过Demo直观了解以上内容

字节跳动基于Iceberg 的海量特征存储实践
钱瀚 字节跳动 基础架构资深研发工程师
所属专题:数据湖

课程概要

案例背景:
随着公司的发展,当前的架构没法满足算法同学越来越复杂的业务需求以及越来越大的数据存储成本。主要问题包括:
1.存在读放大、写放大、空间放大的问题
2.需要支持schema evolution、 ACID、time travel、特征回填等功能

解决思路:
1.将行存转为 parquet 格式,解决了读写放大以及空间放大的问题
2.引入 iceberg 解决了 schema evolution 和 ACID、time travel 等数据湖场景的问题
3.在 iceberg 上进行二次开发,解决了特征回填的问题

成果:
1. 提升了业务的迭代效率
2. 降低了存储空间和训练 IO,提升了训练速度

听众收益

1.了解特征存储的常见痛点和解决思路
2.了解iceberg在特征存储场景的功能定制与应用

七牛云异构数据湖 (Data Lake)实践
贾京峰 七牛云 云存储资深架构师
所属专题:数据湖

课程概要

案例背景:
1.超大规模的数据湖,到底是怎样的规模
2.需要让一份基础数据,发挥出更大价值
3.技术兼容or创新,数据湖产品需要在解决现实问题与面向未来间做足功夫

解决思路:
1.元数据管理技术,数据冗余与出盘率
2.多存储协议与服务模型,高性能(大数据、视频分析与处理、深度学习)
3.研发效率工具与研发生态
4.未来展望,公有云,托管云,私有云的数据湖应用

成果:
打造七牛云异构数据湖产品,落地数据存储底座

听众收益

1.了解异构数据湖的常规挑战、技术模型
2.了解七牛云对异构数据湖的一些技术实践

CopyRight © 2008-2021 Msup & 高可用架构

京ICP备09001521号