2022数据湖技术摘要

DataFunSummit 2022 数据湖论坛 数据湖技术论坛 (xiaoe-tech.com)

1. 美团增量数仓的探索和实践

美团离线增量数据的探索和实践

Hadoop没有主键概念

hive没有主键概念

  1. upsert(replace),delete,MVCC(Multi Version concurrency Control)受限
  2. 有主键的数据在hive中,无法形成增量数据生产链路,必须全量数据参与

HDFS文件不支持修改

  1. Btree+覆盖写的方式行不通
  2. 只能增量+存量进行Merge产生最终数据集
架构选型-数据模型
  1. MOR架构 -- 降低生产成本:读数据时产生冗余IO + 离线compact
  2. 支持主键
  3. 支持复杂MVCC,不支持事物:同步任务模型:有调度的乱时间序写入
  4. sharding策略:1.差异化读写并发 2.弹性伸缩:hash主键前缀 + range打散
架构选型-HIDI

hadoop incremental dataformat implemtation
HFile + Bulkload + SnapshotinputFormat + 离线compact


HIDI架构

美团实时增量数据的探索和实践

从增量数仓到批流融合

批计算和流计算
成本与时效性的权衡
批流一体的数仓模型
  1. 开发模型融合 -- Flink
  2. 调度融合 1. 批到流 mini batch by kafka 2. 流到批 mini batch by hudi logfile
  3. 存储融合 1. 流join 2. 点 + 批 + 增量 + 全量 + 离线 + 实时
  4. 批流应能灵活切换
问题
  1. level0 和 level1 区别
  2. 为什么选取hudi

2. 实时数仓场景与架构搭建实战

数仓设计架构演进

数仓架构演进
实时数仓架构
实时数仓架构
是否需要实时计算
  1. 当前的业务场景是否需要
  2. 业务价值是什么
是否需要更轻的服务
  1. 更轻的运维
  2. 更好的弹性伸缩能力
  3. 更好的系统稳定性
  4. 成本节省
  5. 安全
  6. 减一点配置

Amazon Analytics Serverless

Amazon Analytics Serverless 服务
无服务器的实时数仓架构
还需要什么

Amazon Redshift 更强劲的云原生实时数仓架构

Redshift 架构
Redshift 实时数据摄入能力
实时数据摄取能力
Redshift 实时数仓
Redshift实时数仓与实时计算

Redshift实时数仓 + ML

3. Delta技术原理及其在EBAY的应用

Lakehouse架构
Lakehouse架构
Delta Lake技术原理
Delta Lake技术原理

4. Icebege在微视实时场景的应用

为何用Icebege

背景-数仓架构
微视数仓架构
  1. 实时数仓成本高
  2. 两套计算存储的数据一致性和成本问题
原因分析
原因分析
Icebege与传统存储对比
Icebege与传统存储对比

如何用Icebege

落地结构
Icebege落地结构
使用Icebege支持实时需求
使用Icebege支持实时需求
  1. 使用Icebege基础核心模型建设,为更多业务落地打基础
  2. 成本降低超99%
数据回溯
  1. 新增指标
  2. 修改计算口径
  3. 数据修复
数据回溯功能的实现
流转批场景
流体一体

维护Icebege

数据维护
  1. 清除过期数据
  2. 清除过期快照
  3. 小文件合并 1. binpack策略 2. sort策略:例如:使用用户ID做分组排序
  4. 元数据合并
  5. 清除孤儿文件

小文件合并原理

原理

问题

  1. 每次维表更新率在万分之一在Icebege如何更新
  2. flink中的数据回溯功能是如何实现的
  3. Icebege底层和hive的区别,存储格式
  4. iceberg小文件合并占用多少资源
  5. upsert

5. Juice FS在数据湖存储架构上的探索

大数据存储架构概览

大数据存储架构的变迁
大数据存储架构的变迁
为什么要有数据湖
  1. 数据孤岛
  2. 多样的数据格式(结构化,半结构化,非结构化)
  3. 分散的数据管理
  4. 存储计算耦合,缺乏弹性
  5. 机器学习和深度学习
什么是数据湖
  1. A data lake is a system or repository of data stored in its natural / raw format ,usually object blobs or files
  2. 一个足够便宜,可靠且能支撑海量数据的底层存储(对象存储)
  3. everything in one place
  4. 后置ETL
  5. 存储计算分离,更加云原生
为什么要有湖仓一体
  1. 数据仓库依然存在,只是后置了
  2. 数据仓库的数据滞后性
  3. 机器学习和深度学习的问题依然存在
  4. 数据重复拷贝和重复ETL
  5. ACID事务,多版本数据,索引,零拷贝克隆等
什么是湖仓一体
  1. 开放统一的底层文件格式
  2. 开发的存储层
  3. 开发的计算引擎集成
  4. 与深度学习框架的结合

Juice FS与Lakehouse

Juice FS简介

简介
简介
架构
Juice FS与HDFS,对象存储的比较
Juice FS与HDFS,对象存储的比较

Juice FS与数据湖生态

6. Icebege在小红书的探索和实践

APM日志入湖

数据平台概览
小红书数据平台概览
日志数据入湖
APM case
  1. 动态分区流量极不均匀,keyby数据倾斜,不keyby小文件多
  2. 小文件多 1.distcp延迟 2. 下游读取效率差
Evenpartionshuffle
  1. 引入shuffle
  2. 流量动态变化
日志数据入湖
  1. 异步:下游ETL任务已触发
  2. 跨云读写,OI&OOM风险
Cloud Native Table
日志数据入湖 - Cloud Native Table
S3FileIO
S3FileIO
下游集成
下游集成
日志数据入湖

实时湖分析探索

实时分析链路
流批一体存储
IcebegeMergeTree

CDC实时入湖

Mysql全量入仓
Mysql全量入仓
CDC增量入仓
CDC增量入仓
CDC实时入湖
Exactly once语义
Exactly once语义
MoR
Deduper
Hidden Partition
Hidden Partition

问题

  1. CDC入湖方案
  2. 美团DB数据同步到数据仓库的架构与实践
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352