Delta Lake的横空出世,又点爆了一个新的热点。今天,就用砖厂【Databricks】的大神Michael Armbrust上周的讲座【全球巡演Boston站】来揭开它的神秘面纱。 https://v.youku.com/v_show/id_XNDI0OTE4NzYzNg 【《--- 优酷 Link, 强烈建议认真听听主创者是如何介绍Delta Lake的动机和底层实现细节】听完后,思考一个简单的问题,Spark + Delta是什么?数据湖?数据仓库?还是 AI Database?
这里简要介绍一下Michael Armbrust。应该说,他是砖厂最擅长给讲座的,是Spark summit给Live demo最多的那位。他的光辉历史,估计掰着手指也数不清,是UC Berkeley的博士,是历史上引用最高的云计算论文的一作,是Spark SQL的原创者,是Structured Streaming的原创者,这两年忙啥呢?在深挖 Delta Lake。至今,从动土的那一刻,已经挖了两年。各大公司已经在生产环境中使用【比如,一年前Apple给的Spark summit keynote: https://databricks.com/session/keynote-from-apple】。要知道,Databricks 的环境里已经有1 exabyte的 Delta 数据了。
Spark做为一个计算引擎,应该无须质疑是当前大数据行业的领导者。。。而parquet做为Spark的缺省数据存储格式,其实相当薄弱,缺少了太多关键特性,让Spark的用户不胜其扰,简直是Spark易用性的最大敌人!社区的抱怨可谓绵绵不绝,这种对于技术完美主义者,是无法容忍的!!!在这种背景下,Delta开始了设计和实现。。。Databricks一年多前推出Delta之后,各位客户好评不断,但是我们只在有限的cloud上提供服务。这个实在无法满足那些在on prem上大量部署Spark的整个社区!于是乎,今年Spark Summit,使用Apache license 开源了!!!
未来几周,慢慢讲解Delta的背景和技术细节。等不及的同学们,建议先听听Michael的talk吧!
Delta Lake主页:https://delta.io/ 附图是美国怀俄明的Delta Lake