数据湖的探索与落地实践

专题：数据湖
案例来源：哔哩哔哩

会议地点：深圳
分享时间： 2021-07-31 8:45-9:35

数据湖的探索与落地实践

案例来源：哔哩哔哩
会议地点：深圳
分享时间： 2021-07-31 8:45-9:35

郑志升 |

哔哩哔哩人工智能部/技术专家

10多年在大数据平台和架构相关的经验从0到1搭建B站实时端到端的传输、计算和数据湖体系主要涵盖了Kafka、Flink、Spark、Iceberg/HUDI，Ray等计算设施近两年主要聚焦于从多模态数据链路到训推链路的端到端工程化建设围绕veRL/vLLM/SGLang等开源训推组件，打造基于Ray之上新一代AI Infra计算底座

课程概要

案例背景:
1.传统大数据离线按天调度，如何通过增量生产解决数据高效产出
2.超大规模的数据upsert更新落地
3.传统数仓到湖仓一体的平滑过渡机制

解决思路:
flink，iceberg，hudi
1、数据ETL的痛点
2、基于数据湖的增量ETL
3、增量Append及Upsert的实现
4、未来展望

成果：
引入数据湖，打造湖仓一体，落地数据从ods到dw层的湖化，包括append以及upsert类型数据

听众收益

1.了解数据湖在数仓体系的一些落地应用场景
2.了解如何基于Flink结合Iceberg/Hudi构建一套通用的ETL增量管道
3.了解数据在万亿规模下如何打造高性能和高可用的综合型ETL管道化服务

数据湖的探索与落地实践

专题：数据湖
案例来源：哔哩哔哩

会议地点：深圳
分享时间： 2021-07-31 8:45-9:35

数据湖的探索与落地实践

郑志升 |

哔哩哔哩人工智能部/技术专家

课程概要

听众收益

郑志升 |

哔哩哔哩
人工智能部/技术专家

课程概要

听众收益