三大开源数据湖产品选型快速指南

本文节选翻译自: https://lakefs.io/hudi-iceberg-and-delta-lake-data-lake-table-formats-compared/

Iceberg, Hudi 和 Delta Lake是现在最热门的开源数据湖产品,如何选择该用哪一款呢?我们给了一个快速的选择方法:

如果你有以下需求,请选择Iceberg:

你的主要痛点不是修改记录,而是累于管理超过一万个分区的大表的元数据。通过Apache Iceberg可以加快列举在S3上的文件或者Hive Metastore分区。

反过来,删除和修改的支持还是属于初级阶段,数据保存需要额外的操作。

如果你有以下需求,请选择Hudi:

你使用不同的查询引擎,需要灵活的管理变化的数据集。注意,支持工具和整体的开发者体验可能很糟糕。有时,大量的工作负载可能需要额外的安装和调优。

如果你正在使用AWS托管服务,像Athena, Glue或者EMR,Hudi已经集成在里面了。

如果你有以下需求,请选择Delta Lake:

你主要使用Spark,并且有很少写入需求。如果你正好也是Databricks的客户,Delta Engine会带给你巨大的读写性能和并发性的提升,这也很合理继续使用他们的生态系统。

对于其它的Apache Spark发布版本,你需要知道Delta Lake的开源版本总是落后于商业版(Delta Engine),这是一个商业产品的策略。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。