数据工程师必知必会 @ Spark + AI Summit 2019

全世界有五千人将在2019年的四月来美国旧金山出席Spark + AI Summit 【没有注册的同学们可以开始动手了】。有别于其它大数据和AI会议,这里的讲座和PPT上往往充斥着源码和demo,世界顶尖的工程师们用他们的语言来分享Spark和AI的各种课题。。。今夜,我们分享一篇blog,A Guide to Data Engineering Talks at Spark + AI Summit 2019 。此文介绍了那些专门针对数据工程师的讲座。

1. Workday的Pavel Hardak and Jianneng Li 分享如何利用Spark来构建新一代分析产品Workday Prism Analytics的经验 Lessons Learned Using Apache Spark for Self-Service Data Prep in SaaS World

2. Parquet社区的主要领导者Ryan Blue讲解如何Netflix一步一步把各种MR引擎迁移到Spark Migrating to Apache Spark at Netflix

3. 美国联邦医保中心服务着九千万美国人民,而他们用Spark分析【天价】医疗费用的使用。里面包含了各种隐私,信息相当之敏感,Donghwa分享如何做到数据安全和数据质量的管理 Apache Spark Data Governance Best Practices—Lessons Learned from Centers for Medicare and Medicaid Services

4. Lyft工程师Li Gao and Rohit Menon分享他们是如何在生产系统上大规模使用Apache Spark on Kubernetes Scaling Apache Spark on Kubernetes at Lyft

5. Matthew Powers from Prognos 介绍如何使用Delta和Parquet来构建一个超高性能的Data Lake Optimizing Delta/Parquet Data Lakes for Apache Spark

6. Hao Wan and Liyin Tang 介绍Aribnb如何用Spark来做批处理和流处理的,并且分享升级Spark2.x的经验 Apache Spark at Airbnb

7. 欧洲最大的时尚电商Zalando分享如何一百多个team共享同一个Data Lake,如何使用Delta和Structured Streaming来做实时分析 Continuous Applications at Scale of 100 Teams with Databricks Delta and Structured Streaming

8. Understanding Query Plans and Spark UIs, Xiao Li【本人】讲解如何通过读Plan和UI来理解Spark的运行,分享各种性能调优的经验。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
    草里有只羊阅读 18,373评论 0 85
  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 9,504评论 0 13
  • 长笛的呜咽听出来又是另一列火车 它的离去让沉重的黄昏变成寂静的夜 开心是因为冰雨已经是去年的苦等 另一种未知取决于...
    毛小诗阅读 259评论 0 3
  • 今天的梦 去大草原上探亲 遇到中长发知性 有肌肉健身的大哥哥 他似乎很孤独很痛苦 像是没了母亲 记忆有些模糊记不太...
    Sen森01阅读 106评论 0 1
  • 我读顾城《没有注满的桶》 1 幸运的就是这首诗我们尚且都能够读懂。有人把顾城的诗按时间顺序划分为四个阶段...
    皮日休的箬笠阅读 600评论 0 0