Delta Lake: 数据湖？数据仓库？

Delta Lake的横空出世，又点爆了一个新的热点。今天，就用砖厂【Databricks】的大神Michael Armbrust上周的讲座【全球巡演Boston站】来揭开它的神秘面纱。 https://v.youku.com/v_show/id_XNDI0OTE4NzYzNg 【《--- 优酷 Link, 强烈建议认真听听主创者是如何介绍Delta Lake的动机和底层实现细节】听完后，思考一个简单的问题，Spark + Delta是什么？数据湖？数据仓库？还是 AI Database?

这里简要介绍一下Michael Armbrust。应该说，他是砖厂最擅长给讲座的，是Spark summit给Live demo最多的那位。他的光辉历史，估计掰着手指也数不清，是UC Berkeley的博士，是历史上引用最高的云计算论文的一作，是Spark SQL的原创者，是Structured Streaming的原创者，这两年忙啥呢？在深挖 Delta Lake。至今，从动土的那一刻，已经挖了两年。各大公司已经在生产环境中使用【比如，一年前Apple给的Spark summit keynote: https://databricks.com/session/keynote-from-apple】。要知道，Databricks 的环境里已经有1 exabyte的 Delta 数据了。

Spark做为一个计算引擎，应该无须质疑是当前大数据行业的领导者。。。而parquet做为Spark的缺省数据存储格式，其实相当薄弱，缺少了太多关键特性，让Spark的用户不胜其扰，简直是Spark易用性的最大敌人！社区的抱怨可谓绵绵不绝，这种对于技术完美主义者，是无法容忍的！！！在这种背景下，Delta开始了设计和实现。。。Databricks一年多前推出Delta之后，各位客户好评不断，但是我们只在有限的cloud上提供服务。这个实在无法满足那些在on prem上大量部署Spark的整个社区！于是乎，今年Spark Summit，使用Apache license 开源了！！！

未来几周，慢慢讲解Delta的背景和技术细节。等不及的同学们，建议先听听Michael的talk吧！

Delta Lake主页：https://delta.io/ 附图是美国怀俄明的Delta Lake

最后编辑于：2019.06.30 11:37:44

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Delta Lake: 数据湖？数据仓库？

友情链接更多精彩内容