集群上运行spark

1.启动hadoop与spark。

2.独立集群管理器
(1)spark-submit(jar)
向独立集群管理器提交应用,需要把spark://master:7077作为主节点参数递给spark-submit。下面我们可以运行Spark安装好以后自带的样例程序SparkPi,它的功能是计算得到pi的值(3.1415926)。
在Shell中输入如下命令:

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 examples/jars/spark-examples_2.11-2.0.2.jar 100 2>&1 | grep "Pi is roughly"

python同样可以操作。



Paste_Image.png

(2) spark-shell
也可以用spark-shell连接到独立集群管理器上。用hdfs上的电影集文件做测试。
在Shell中输入如下命令启动进入spark-shell:

    cd /usr/local/spark/
    bin/spark-shell --master spark://master:7077

可以在spark-shell中输入如下代码进行测试:

Paste_Image.png

3.hadoop yarn
(1) spark-submit(jar)
向Hadoop YARN集群管理器提交应用,需要把yarn-cluster作为主节点参数递给spark-submit。
请登录Linux系统,打开一个终端,在Shell中输入如下命令:

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster examples/jars/spark-examples_2.11-2.0.2.jar
Paste_Image.png
Paste_Image.png

(2)spark-shell

bin/spark-shell --master yarn

scala代码同上。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容