2017 年首次 Strata + Hadoop World 大会于 3 月 13 在美国加州圣何塞举办,并持续到 3 月 16 日。来自全球各地的大数据、机器学习以及深度学习的专家在这里分享了很多在各自的业务领域解决实际问题的经验,吸引了很多厂商赞助并设立展台。本文主要总结一下大会开始首日的一些 Event 安排。
我们可以在 这里 看到 3 月 13 日的具体安排。这天虽然是各个参展方布置会场的时间,主办方还是为参加大会的从业者启动了为期两天的培训课程,这些课程包含:
Spark foundations: Prototyping Spark use cases on Wikipedia datasets
Apache Spark 的真正能力和价值在于将 ETL、批量分析、实时流分析、机器学习、图处理以及可视化的技术和方案组合起来并创建了一个统一的方式。主讲者 Jacob Parr 使用维基百科数据集设计了动手练习课程来探索各种可能的 Spark 上的编程模式。训练结束后,参加课程的同学们可以开发一些 Spark 上的原型概念产品。
Data science at scale: Using Spark and Hadoop
数据科学家通过创建信息平台处理数据来提供深度洞见并回答以前无法想象的问题。Spark 和 Hadoop 正在通过提供对大规模数据进行交互和分析的能力来改变数据科学家的工作方式。这个课程将分享数据科学家是如何使用 Spark 和 Hadoop 帮助企业降低成本、增加收入、改进产品、获得并留住用户以及发现新机会的。
主讲者 Bruce Martin 剖析了数据科学家的工作内容、他们解决的问题以及他们使用的技术和工具,通过课程中的模拟和练习,Bruce 会带着参与课程的同学们应用数据科学来解决真实世界中不同行业的实际问题。
课程内容:
- 如何找到数据科学可以提供有影响力的结果的潜在商业案例
- 如何获取、清洗以及整合不同的数据源用于分析
- 如何挑选合适的统计学方法来找到数据中的价值
- 什么时候在什么地方引入 Spark 和 Hadoop 到数据科学的处理过程中
- 对于一个特定的数据科学工程来说,如何选择合适的机器学习技术
- 部署新的分析平台到大规模生产环境中的一些陷阱
Real-time data engineering in the cloud
云计算平台现在可以让我们以更经济、更快地处理业务,而且实时大数据处理正在开创全新的应用场景。将这两者结合起来,我们可以更容易地创建生产环境中的实时处理系统。处理实时大数据,我们会面临两个重要挑战:
- 如获取大量的数据
- 如何实时处理大规模的数据
主讲者 Jesse Anderson 探索了各种最新的实时框架(包括开源实现和托管在云端的服务),讨论了元计算服务提供商,并解释了如何挑选适合自己的云服务。基于 Apache Kafka 和 Spark,Jesse 演示了如何获取数据、处理数据、分析数据以及在控制台展示数据的整个流程。
Machine learning with TensorFlow
主讲者 Robert Schroll 使用 Python 接口演示了 TensorFlow 的能力,并介绍了一些 TFLearn,一个封装了 TensorFlow 的上层深度学习库。TensorFlow 是 Google 开源的深度学习库,允许使用数据流图进行支持自动化平行和跨架构(CPU & GPU)的数值计算。这个框架非常适合用来实现神经网络和其他机器学习算法。通过该课程,参与的同学们可以学习如何使用 TFLearn 和 TensorFlow 创建解决实际问题的机器学习模型。