Hadoop安装(单机模式和伪分布模式)和spark安装,运行wordcount程序

Hadoop系列产品安装(单机模式和伪分布模式):

使用Ubuntu系统

1. 安装jdk,配置环境;(.bashrc中配置)

2. 安装ssh;(单机模式不用)

3. 下载hadoop安装包,解压;

4. hadoop配置:

4.1. 单机模式:若解压成功,则单机模式安装成功。

查看Hadoop内置的例子。(黄色线圈的是单词计数的例子)


在hadoop目录下创建input目录,在input输入需要测试文件,执行命如下命令在mapreduce上进行词频统计:

 ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.5.jar wordcount ./input/ ./output

输出结果在output文件中。

4.2. 伪分布模式:

Hadoop安装路径为/home/hp/hadoop_env/hadoop-2.8.5。

在安装目录下创建tmp临时文件目录

修改Hadoop安装主目录下etc/hadoop目录下的配置文件core-site.xml:

<configuration>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>/home/hp/hadoop_env/hadoop-2.8.5/tmp</value>

                <description>Abase for other temporary directories.</description>

        </property>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://localhost:9000</value>

        </property>

</configuration>

修改配置文件hdfs-site.xml:

<configuration>

        <property>

                <name>dfs.replication</name>

                <value>1</value>

        </property>

        <property>

                <name>dfs.namenode.name.dir</name>

                <value>/home/hp/hadoop_env/hadoop-2.8.5/tmp/dfs/name</value>

        </property>

        <property>

                <name>dfs.datanode.data.dir</name>

                <value>/home/hp/hadoop_env/hadoop-2.8.5/tmp/dfs/data</value>

        </property>

</configuration>

修改配置文件mapred-site.xml:

<configuration>

<property>

                <name>mapreduce.framework.name</name>

                <value>yarn</value>

        </property>

</configuration>

修改配置文件yarn-site.xml:

<configuration>

        <property>

                <name>yarn.resourcemanager.hostname</name>

                <value>localhost</value>

        </property>       

<property>

                <name>yarn.nodemanager.aux-services</name>

                <value>mapreduce_shuffle</value>

        </property>

</configuration>

手动添加JAVA_HOME,编辑安装主目录下etc/hadoop目录下的文件hadoop-env.sh:

添加export JAVA_HOME=/home/hp/jdk1.8.0_191

格式化NameNode:主目录中执行(只能执行1次)

./bin/hdfs namenode -format

开启HDFS守护进程(NameNode和DataNode)守护进程:

 ./sbin/start-dfs.sh

开启YARN守护进程:

./sbin/start-yarn.sh

开启作业历史服务器:

 ./sbin/mr-jobhistory-daemon.sh start historyserver  

验证:输入jps,出现如下结果则成功打开。


浏览器中打开“127.0.0.1:50070”查看hdfs的文件系统;

运行wordcount程序:

1.在HDFS中创建用户目录:

./bin/hdfs dfs -mkdir -p /user/hadoop

2.创建输入文件夹+传入文本+查看

./bin/hdfs dfs -mkdir /user/hadoop/input

./bin/hdfs dfs -put ./input/inputWords /user/hadoop/input

./bin/hdfs dfs -ls /user/hadoop/input

3.执行wordcount程序

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.5.jar wordcount /user/hadoop/input /user/hadoop/output

4.查看结果

./bin/hdfs dfs -ls /user/hadoop/output

./bin/hdfs dfs -cat /user/hadoop/output/part-r-00000

关闭Hadoop:

./sbin/mr-jobhistory-daemon.sh stop historyserver

./sbin/stop-yarn.sh

./sbin/stop-dfs.sh

Spark安装

1. [endif]下载scala和spark安装包:

https://www.scala-lang.org/download/

http://spark.apache.org/downloads.html

注意:

1)使用目前的spark2.4.0版本,不能使用scala2.12安装包,这里用2.11;

2)由于安装过hadoop,spark安装包使用不继承hadoop版本,这里使用spark-2.4.0-bin-without-hadoop

2. [endif]环境配置;

2.1.编辑.bashrc,添加

#set spark environment

export SPARK_HOME=/home/hp/hadoop_env/spark-2.4.0-bin-without-hadoop

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

#set scala environment

export SCALA_HOME=/home/hp/hadoop_env/scala-2.11.12

export PATH=$PATH:$SCALA_HOME/bin

2.2.修改spark目录下的conf/spark-env.sh,添加

export SCALA_HOME=/home/hp/hadoop_env/scala-2.11.12

export SPARK_WORKER_MEMORY=2g

export SPARK_MASTER_IP=hp-notebook(主机名)

export MASTER=spark://hp-notebook:7077

export JAVA_HOME=/home/hp/jdk1.8.0_191

export HADOOP_HOME=/home/hp/hadoop_env/hadoop-2.8.5

export SPARK_DIST_CLASSPATH=$CLASSPATH:$($HADOOP_HOME/bin/hadoop classpath)

export HADOOP_CONF_DIR=/home/hp/hadoop_env/hadoop-2.8.5/etc/hadoop

3. 运行sbin/start-all.sh,启动master和worker进程。浏览器访问”主机名:8080”

4. 测试wordcount程序。

4.1在hdfs中创建输入文件:

./bin/hdfs dfs -mkdir -p /spark

vim spark.txt

./bin/hdfs dfs -put spark.txt /spark

4.2启动spark-shell,执行wordcount:

spark-shell

scala> sc.textFile("/spark/spark.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("/spark/out")

./bin/hdfs dfs -cat /spark/out/p*

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,367评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,959评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,750评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,226评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,252评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,975评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,592评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,497评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,027评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,147评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,274评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,953评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,623评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,143评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,260评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,607评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,271评论 2 358