1. Spark文件目录简介
1.1 README.md
包含用来入门Spark的简单的使用说明。
1.2 bin
包含可以用来和Spark 进行各种方式的交互的一系列可执行文件。
1.3 core、streaming、python......
包含Spark项目主要组件的源代码
1.4 examples
包含一些可以查看和运行的Spark程序,对学习Spark的API非常有帮助。
1.5 conf
包含Spark的一些配置文件,比如节点配置slaves,日志配置log4j.properties等。
2. Maven构建与运行
官方示例:http://spark.apache.org/docs/latest/quick-start.html
$mvn clean && mvn compile && mvn package
$SPARK_HOME/bin/spark-submit \
--class "SimpleApp" \
--master local[4] \
/home/admin/mrwinter/case/SimpleSpark-1.0.jar
3. Spark任务执行
每个Spark 应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作。驱动器程序一般要管理多个执行器(executor)节点。每个执行器可以同时执行多个任务(task)。
Spark分布式执行涉及的组件
4. Spark快速大数据分析Github
Spark快速大数据分析Github(https://github.com/databricks/learning-spark)