1.将Spark的安装包上传到服务器,解压,配置环境
安装包地址:链接:https://pan.baidu.com/s/1IyGq3uYU2Yyp5KEfhaHKbw
提取码:6zt9
解压:
tar -zxcf spark-2.1.0-bin-hadoop2.7.tgz -C /opt/module/spark-2.1.0-bin-hadoop2.7
配置环境:
[root@bigdata111 conf]# cp spark-env.sh.template spark-env.sh
[root@bigdata111 conf]# vi spark-env.sh
将环境变量,主机地址,端口等信息添加到spark-env.sh中
export JAVA_HOME=/opt/module/jdk1.8.0_181
export SPARK_MASTER_HOST=bigdata111
export SPART_MASTER_PORT=7077
2.配置主从节点:
[root@bigdata111 conf]# vi slaves
伪分布式,就是将master和worker放在同一台服务器上:在slaves中添加:
bigdata111
3.测试
开启Spark:
[root@bigdata111 spark-2.1.0-bin-hadoop2.7]# sh ./sbin/start-all.sh
jps查看进程
[root@bigdata111 spark-2.1.0-bin-hadoop2.7]# jps
67219 Master
67410 Worker
70665 Jps
[root@bigdata111 spark-2.1.0-bin-hadoop2.7]#
然后在浏览器中输入 bigdata111:8080:
用spark-submit测试spark 自带的实例程序:
/opt/module/spark-2.1.0-bin-hadoop2.7/examples/jars中有Spark自带的实例程序
蒙特卡洛求PI(圆周率)
./spark-submit --master spark://bigdata111:7077 --class org.apache.spark.examples.SparkPi /opt/module/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar 500
解释:
spark-submit:执行spark任务的工具之一
--master:连接到主节点
spark://bigdata111:7077: 主节点的地址
--class org.apache.spark.examples.SparkPi:spark任务的全类名
/opt/module/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar:jar包的位置
500:参数
运行的结果:
Pi is roughly 3.1414508628290174