集群上运行spark

1.启动hadoop与spark。

2.独立集群管理器
（1）spark-submit(jar)
向独立集群管理器提交应用，需要把spark：//master:7077作为主节点参数递给spark-submit。下面我们可以运行Spark安装好以后自带的样例程序SparkPi，它的功能是计算得到pi的值（3.1415926）。
在Shell中输入如下命令：

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 examples/jars/spark-examples_2.11-2.0.2.jar 100 2>&1 | grep "Pi is roughly"

python同样可以操作。

Paste_Image.png

(2) spark-shell
也可以用spark-shell连接到独立集群管理器上。用hdfs上的电影集文件做测试。
在Shell中输入如下命令启动进入spark-shell：

    cd /usr/local/spark/
    bin/spark-shell --master spark://master:7077

可以在spark-shell中输入如下代码进行测试：

Paste_Image.png

3.hadoop yarn
(1) spark-submit(jar)
向Hadoop YARN集群管理器提交应用，需要把yarn-cluster作为主节点参数递给spark-submit。
请登录Linux系统，打开一个终端，在Shell中输入如下命令：

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster examples/jars/spark-examples_2.11-2.0.2.jar

Paste_Image.png

（2）spark-shell

bin/spark-shell --master yarn

scala代码同上。

最后编辑于：2017.12.05 05:57:04

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

集群上运行spark

集群上运行spark

相关阅读更多精彩内容

友情链接更多精彩内容