超10亿美元,Tablular 被 Databricks 收购!谈一谈我们的思考

今天看到一个重磅新闻,Databricks 10亿~20亿美元的金额收购了初创公司 Tabular。Tabular 是国际开源湖仓项目 Iceberg 核心创始团队 Ryan Blue 等人于 2021 年创办的公司,目前公司人员40人左右。关于这次收购和湖仓一体框架的未来,谈一谈我们的思考。

1. 生态上的思考

一直以来,Iceberg 以开放、中立的表格式,建立了强大的生态,除了 Spark、Flink、Trino、Doris 等开源数据处理引擎的适配,也吸引了商业数仓如 Snowflake 的支持。而 Databricks 自家的 Delta Lake,由于初期开源策略摇摆不定,在表格式开源生态上已经难以匹敌 Iceberg ,这可能也是 Databricks 本次收购的初衷,Databricks 在收购官宣文章中提到,双方团队未来方向是共同建立统一开放的表格式。

然而虽然 Iceberg 有很清晰的 Table Format Spec,在各个引擎的实现上却并不统一,功能并不能够完全对齐。例如由于 Iceberg 缺失 Native 实现,在 C++ 实现的查询引擎上(如 Doris、Velox),以及 Python 的接口,都是各自重新实现;在 Flink 上,Iceberg 至今不支持 CDC 读。这些问题,给 Iceberg 造成了一定程度生态上的混乱。在本次收购后,鉴于 Databricks 的商业策略已经越来越封闭(包括 Spark Streaming 的功能也长期不做更新),很多商业数仓公司如 Snowflake 是否还愿意继续支持 Iceberg,也是存疑的。

2. 技术上的思考

从技术上看,现在表格式功能方面,各个开源框架已经比较趋同了,从 Catalog 到表的增删改查,甚至都有开源项目把 Iceberg、Hudi 再封装成统一接口,Databricks 的 UniForm 也是类似的统一封装的思路。对于用户来说可能已经不会重点关注表格式到底是哪种。因此,数据湖框架未来的重点,应该是如何满足用户越来越多样化的数据管理、数据/AI 等多种计算引擎生态连接的需求。

我们一开始选择完全自研底层云原生湖仓一体框架 LakeSoul,并没有选择套壳 Iceberg,虽然过程很艰辛,但是现在看也逐步建立了几个明显优势:

1.Native IO 层实现,统一提供 Upsert 写入和 Merge on Read 读取接口,并采用 Arrow 作为数据交换格式,能够很方便地对接大数据框架、MPP 查询引擎、AI 框架,并针对云原生环境做了大量性能优化。

2.元数据服务提供了更高的并发能力、更大规模数据的管理能力。在高并发流式写入、大规模表的扫描计划(Scan Planning)生成上都有显著的性能和规模优势。

3.企业级的安全特性。支持多空间租户隔离、表级别权限控制。权限隔离实现在元数据服务和存储层上,无论是 SQL 作业,还是 Java/Python代码,均能保证权限隔离。

4.完善的数据双向集成能力。LakeSoul 提供了完全自动化的数据实时导入、导出工具。导入、导出均支持动态 Schema 变更,支持多种开源、商业数据库和消息队列的连接。

5.元数据、IO 层 Native 实现并封装上层接口,包括扫描查询计划生成、分区/数据过滤条件下推、Merge on Read,CDC 读写、权限控制。无论是大数据框架、查询引擎、AI 框架,都能保持统一的功能特性和一致的性能。

3. 未来的思考

我们认为,一套完善的云原生湖仓一体数据智能平台,不仅是需要一个统一的表格式,还需要有完善的功能体系、在云上优秀的 IO 性能和弹性计算能力,以及强大的多引擎连接能力。我们也将致力于建设新一代湖仓一体框架基础软件,成为数据和 AI 的统一底座。

关于 LakeSoul 的技术解析,我们在之前的公众号文章里做了大量介绍,可以参考之前的若干文章链接:

LakeSoul - 新一代的数智化底座

LakeSoul 发布 2.2.0 版本,全面升级 Native IO,扩大云原生湖仓性能领先幅度

LakeSoul 国产湖仓框架新篇章:开源基金会孵化,国产信创认证,新版本重磅发布

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容