Hadoop
1.Hadoop是什么
Hadoop是Apache开源软甲之一,由Doug Cutting(Lucene编写者)所编写,主要用于海量数据的存储和运算。
2.Hadoop的安装
在安装Hadoop之前要先安装jdk
jdk的安装:
例如jdk的版本为jdk-7u25-linux-x86_64.tar.gz
①将jdk软件上传到linux服务器。
②使用指令解压: tar -xvf jdk-7u25-linux-x86_64.tar.gz
③在/etc/profile或者/etc/environment 进行环境变量的配置
JAVA_HOME=/usr/local/soft/jdk1.8.0_151
在PATH变量后添加/usr/local/soft/jdk1.8.0_151/bin
Hadoop的安装
①将Hadoop软件上传到服务器
②在在/etc/profile或者/etc/environment 进行环境变量的配置
/usr/local/soft/hadoop-3.0.0
在PATH变量后面添加/usr/local/soft/hadoop-3.0.0/bin:/usr/local/soft/hadoop-3.0.0/sbin
最后更新配置文件source /etc/environment
使用 java -version 验证java是否配置成功
使用hadoop version 验证hadoop是否配置成功
3.Hadoop的配置
1)Hadoop的配置模式分为三种:
独立模式
伪分布模式
完全分布模式
2)三种配置模式的定义:
独立模式:
没有运行的守护程序,所有程序运行在一个JVM中。适合开发期间运行MapReduce程序,源于他的易于测试和调试
伪分布模式:
守护程序运行在本地主机,模拟一个小规模集群。
完全分布模式:
守护程序运行在多个主机的集群上
3)三种配置模式的配置:
①独立模式:
什么也不需要做,默认就是独立模式。
②伪分布模式的配置:
1)先进入到hadoop的配置文件中:cd /usr/local/soft/hadoop-3.0.0/etc/hadoop
2)修改四种配置文件的内容:
core-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:8020/</value>
</property>
<property>
<name>hadoop.tep.dir</name>
<value>/ddhome/tep/data</value>
</property>
</configuration>
hdfs-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
2)安装ssh,使用指令:sudo apt-get install ssh
安装完成后,会自动生成ssh-keygen 执行文件 :使用命令 which ssh-keygen 可查看
使用指令:ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa 生成公钥和私钥
将公钥数据输出到authorized_keys文件 ,使用指令:cat id_rsa.pub >> ~/.ssh/authorized_keys
第一次登录(使用输入yes确定):ssh localhost
退出登录:exit
第二次登录(不需要输入yes确定) ssh localhost
3)最后操作:
格式化文件系统:
hadoop namenode -format
指定配置目录:
启动进程时设置指定目录:
启动hadoop命令:start-all.sh
验证集群是否启动成功,使用jps命令:
jps:
NameNode
SecondaryNameNode
DataNode
JobTracker
TaskTracker
通过浏览器访问:
http://192.168.25.132:50070 (hdfs管理界面)
http://192.168.25.132:50030 (mr管理界面)