钱瀚  |

字节跳动

基础架构资深研发工程师

即将开始的GIAC课程

字节跳动基于Iceberg 的海量特征存储实践

数据湖

2021-07-31 10:25--11:15

案例背景:
随着公司的发展,当前的架构没法满足算法同学越来越复杂的业务需求以及越来越大的数据存储成本。主要问题包括:
1.存在读放大、写放大、空间放大的问题
2.需要支持schema evolution、 ACID、time travel、特征回填等功能

解决思路:
1.将行存转为 parquet 格式,解决了读写放大以及空间放大的问题
2.引入 iceberg 解决了 schema evolution 和 ACID、time travel 等数据湖场景的问题
3.在 iceberg 上进行二次开发,解决了特征回填的问题

成果:
1. 提升了业务的迭代效率
2. 降低了存储空间和训练 IO,提升了训练速度

字节跳动基础架构部门资深研发,超过8年的研发经验,目前专注于大数据和AI基础架构方向,负责公司的特征工程和训练调度框架等相关系统的研发工作。

即将开始的GIAC课程

字节跳动基于Iceberg 的海量特征存储实践

数据湖

2021-07-31 10:25--11:15

案例背景:
随着公司的发展,当前的架构没法满足算法同学越来越复杂的业务需求以及越来越大的数据存储成本。主要问题包括:
1.存在读放大、写放大、空间放大的问题
2.需要支持schema evolution、 ACID、time travel、特征回填等功能

解决思路:
1.将行存转为 parquet 格式,解决了读写放大以及空间放大的问题
2.引入 iceberg 解决了 schema evolution 和 ACID、time travel 等数据湖场景的问题
3.在 iceberg 上进行二次开发,解决了特征回填的问题

成果:
1. 提升了业务的迭代效率
2. 降低了存储空间和训练 IO,提升了训练速度

CopyRight © 2008-2021 Msup & 高可用架构

京ICP备09001521号