3. 第二章 Spark入门示例

1. Spark文件目录简介

1.1 README.md
包含用来入门Spark的简单的使用说明。
1.2 bin
包含可以用来和Spark 进行各种方式的交互的一系列可执行文件。
1.3 core、streaming、python......
包含Spark项目主要组件的源代码
1.4 examples
包含一些可以查看和运行的Spark程序,对学习Spark的API非常有帮助。
1.5 conf
包含Spark的一些配置文件,比如节点配置slaves,日志配置log4j.properties等。

2. Maven构建与运行

官方示例:http://spark.apache.org/docs/latest/quick-start.html

$mvn clean && mvn compile && mvn package

$SPARK_HOME/bin/spark-submit \
--class "SimpleApp" \
--master local[4] \
/home/admin/mrwinter/case/SimpleSpark-1.0.jar
3. Spark任务执行

每个Spark 应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作。驱动器程序一般要管理多个执行器(executor)节点。每个执行器可以同时执行多个任务(task)。

Spark分布式执行涉及的组件
4. Spark快速大数据分析Github

Spark快速大数据分析Github(https://github.com/databricks/learning-spark

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容