搭建centos7的开发环境3-Spark安装配置

说起大数据开发,必然就会提到Spark,在这片博文中,我们就介绍一下Spark的安装和配置。
这是Centos7开发环境系列的第三篇,本篇的安装会基于之前的配置进行,有需要的请回复搭建centos7的开发环境1-系统安装及Python配置搭建centos7的开发环境2-单机版Hadoop2.7.3配置

安装Spark

这里说明一下各种软件的版本号:
open-JDK: 1.8.0
Hadoop: 2.7.3
scala: 2.11.8
Spark: 2.1.0

scala

  • 下载 sacla2.11.8
  • 解压安装,并配置环境变量
tar -zxvf scala-2.11.8.tgz
sudo mv scala-2.11.8 /usr/scala

spark

  • 下载 spark 2.1.0
  • 解压安装,并配置环境变量
tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz 
sudo mv spark-2.1.0 /usr/spark
vim /etc/profile
========================
export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"
SCALA_HOME=/usr/scala
export PATH=$PATH:$SCALA_HOME/bin
SPARK_HOME=/usr/spark
export PATH=$SPARK_HOME/bin:$PATH
========================
source /etc/profile
###########################
export SCALA_HOME=/usr/scala
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.121-0.b13.el7_3.x86_64
export SPARK_MASTER_IP=127.0.0.1
export SPARK_LOCAL_IP=127.0.0.1
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/usr/hadoop/etc/hadoop

配置完成之后,启动命令

/usr/hadoop/sbin/start-all.sh
/usr/spark/sbin/start-all.sh
打开链接 http://127.0.0.1:8080/,现在可以看到:

在终端分别输入spark-shell和pyspark都运行正常。

wordcount测试

创建数据集

在spark官网拷贝了一个网页作为数据源创建words.txt作为输入数据,并导入hdfs.

touch words.txt
vim words.txt
cd /usr/hadoop/sbin
hadoop fs -mkdir hdfs://localhost:9000/input
hadoop fs -put  /home/kejun/words.txt hdfs://localhost:90000/input
pyspark

现在进入pyspark的界面:

textFile=sc.textFile("hdfs://localhost:9000/input/words.txt")
counts = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://localhost:9000/input/out")

在hdfs的filesystem可以下载到wordcount结果

spark安装成功啦~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容