Hadoop（一）

Hadoop
1.Hadoop是什么
Hadoop是Apache开源软甲之一，由Doug Cutting（Lucene编写者）所编写，主要用于海量数据的存储和运算。
2.Hadoop的安装
在安装Hadoop之前要先安装jdk
jdk的安装：
例如jdk的版本为jdk-7u25-linux-x86_64.tar.gz
①将jdk软件上传到linux服务器。
②使用指令解压： tar -xvf jdk-7u25-linux-x86_64.tar.gz
③在/etc/profile或者/etc/environment 进行环境变量的配置
JAVA_HOME=/usr/local/soft/jdk1.8.0_151
在PATH变量后添加/usr/local/soft/jdk1.8.0_151/bin
Hadoop的安装
①将Hadoop软件上传到服务器
②在在/etc/profile或者/etc/environment 进行环境变量的配置
/usr/local/soft/hadoop-3.0.0
在PATH变量后面添加/usr/local/soft/hadoop-3.0.0/bin:/usr/local/soft/hadoop-3.0.0/sbin

最后更新配置文件source /etc/environment
使用 java -version 验证java是否配置成功
使用hadoop version 验证hadoop是否配置成功
3.Hadoop的配置
1）Hadoop的配置模式分为三种：
独立模式
伪分布模式
完全分布模式
2）三种配置模式的定义：
独立模式：
没有运行的守护程序，所有程序运行在一个JVM中。适合开发期间运行MapReduce程序，源于他的易于测试和调试
伪分布模式：
守护程序运行在本地主机，模拟一个小规模集群。
完全分布模式：
守护程序运行在多个主机的集群上

3）三种配置模式的配置：
①独立模式：
什么也不需要做，默认就是独立模式。
②伪分布模式的配置：
1）先进入到hadoop的配置文件中：cd /usr/local/soft/hadoop-3.0.0/etc/hadoop
2)修改四种配置文件的内容：
core-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:8020/</value>
</property>
<property>
<name>hadoop.tep.dir</name>
<value>/ddhome/tep/data</value>
</property>
</configuration>

hdfs-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

mapred-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
2）安装ssh，使用指令：sudo apt-get install ssh
安装完成后，会自动生成ssh-keygen 执行文件：使用命令 which ssh-keygen 可查看
使用指令：ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa 生成公钥和私钥
将公钥数据输出到authorized_keys文件，使用指令：cat id_rsa.pub >> ~/.ssh/authorized_keys
第一次登录（使用输入yes确定）：ssh localhost
退出登录：exit
第二次登录（不需要输入yes确定） ssh localhost

3）最后操作：
格式化文件系统：
hadoop namenode -format
指定配置目录：
启动进程时设置指定目录：
启动hadoop命令：start-all.sh
验证集群是否启动成功，使用jps命令：
jps:
NameNode
SecondaryNameNode
DataNode
JobTracker
TaskTracker
通过浏览器访问：
http://192.168.25.132:50070 (hdfs管理界面)
http://192.168.25.132:50030 (mr管理界面)

Hadoop（一）

推荐阅读更多精彩内容