CentOS 7 下Hadoop虚拟机配置

写在前面
由于自己对大数据开发也比较感兴趣，于是乎开始学习一些大数据的框架，将自己学习大数据的经历记录下来，一方面可以方便自己及时回顾，另一方面也起到督促自己的作用。

第一步：配置前的准备

（1）我采用的是Centos7.5(1804)版本的，下载地址为CentOS中文站：点此下载

（2）Hadoop版本为2.9.2，下载地址为官网：点此下载

（3）jdk版本为JDK8（JDK1.8），下载地址为官网：点此下载

（4）虚拟机配置：一共三台。每台配置：硬盘40G，内存4G，CPU 2*2，分区设置：/boot 300M /swap 2GB / 全部
(这里我在配置分区后安装时，遇到过安装错误的问题，上网查后才得知原因是/boot 只分了200M，/boot分区作为操作系统的内核及在引导过程中使用的文件，需要至少300M大小，所以修改了boot分区大小之后安装成功)

以下所有操作我都是用root下操作的，这种形式在正式工作环境中肯定是不可能的，如果想用一般用户，那么就可以创建一个一般用户

useradd yh
passwd 123456

之后把这个用户加入到sudoers：vim /etc/sudoers
在ROOT处添加以下内容：

yh ALL=(ALL)        NOPASSWD:ALL

后，wq!强制保存。

第二步：虚拟机配置

（1）关闭防火墙

CentOS 7默认使用的是firewall作为防火墙。

查看防火墙状态：firewall-cmd --state

关闭防火墙：systemctl stop firewalld.service

禁止防火墙开机启动：systemctl disable firewalld.service

（2）在/opt目录下创建两个文件夹module和software

创建文件夹mkdir /opt/module /opt/software

其中下载的一些东西都放在software里，安装的东西都装在module里。

把下载的jdk-8u271-linux-x64.tar.gz 和 hadoop-2.9.2.tar.gz都放在software文件夹下

（3）修改Hosts

修改host配置vim /etc/hosts 在文件后追加

192.168.238.100   hadoop100
192.168.238.101   hadoop101
192.168.238.102   hadoop102
192.168.238.103   hadoop103
192.168.238.104   hadoop104
192.168.238.105   hadoop105
192.168.238.106   hadoop106
192.168.238.107   hadoop107
192.168.238.108   hadoop108
192.168.238.109   hadoop109

其中左边是IP地址，右边是主机名，方便以后使用。

（4）修改静态IP

（每克隆一台都要做一遍）
修改ifcfg-eth33 vim /etc/sysconfig/network-scripts/ifcfg-eth33
将其中内容修改为以下

DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.238.100
PREFIX=24
GATEWAY=192.168.238.2
DNS1=192.168.238.2
NAME=eth0

其他的上面没有的，而ifcfg-eth33中有的，可以删去。
注意：网关和DNS要和虚拟机的配置一样，查看虚拟机的NAT设置里面就有了。不同的主机IP地址设置要和上面第四步中对应起来，克隆虚拟机之后记得要修改其IP。

（5）改主机名

修改vim /etc/sysconfig/network

NETWORKING=yes
HOSTNAME=hadoop100
NTPSERVERARGS=iburst

如果network里什么也没有写，就增加以上内容；如果有，那么修改HOSTNAME字段，改成你这台虚拟机对应的名字，我这里是hadoop100。

修改完以上配置之后，记得拍快照！！！快照取名 After Configuration，之后使用此快照，“链接克隆”克隆出两台虚拟机，也都要进行以上的虚拟机配置。

好了现在按照上面的操作，手里有了三台虚拟机，分别是：

192.168.238.102   hadoop102
192.168.238.103   hadoop103
192.168.238.104   hadoop104

每两台主机之间Ping通，即可。

（注意IP地址和主机名对应起来，这样比较好记。刚开始我是自己瞎配了两台玩，后来正式配起来是hadoop102，hadoop103，hadoop104三台。起什么名字随意，自己记得住就行）

第三步：安装JAVA和Hadoop

（1）下载安装包

两种方式：

① 从Windiws下，参考我上面《第一步：配置前的准备》给的链接，下载jdk-8u271-linux-x64.tar.gz 和 hadoop-2.9.2.tar.gz，之后用Xshell的XFTP传到三台虚拟机的/opt/software下。

② 或者在Linux下wget进行下载到/opt/software都可。

（2）解压

cd到software目录下，输入tar -zxvf jdk-8u271-linux-x64.tar.gz -C /opt/module和tar -zxvf hadoop-2.9.2.tar.gz -C /opt/module，将jdk和hadoop解压到 /opt/module 目录下。
在module下可以看到解压出来的hadoop-2.9.2和jdk1.8.0_271两个文件夹。

（3）配置环境变量

修改 vim /etc/profile
在文件最后，加上以下内容：

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_271
export PATH=$PATH:$JAVA_HOME/bin

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存后退出，输入source /etc/profile
之后输入java -version和hadoop version就可以看到java和hadoop的版本，环境变量配置结束。

以上，三台虚拟机配置基本完成，可以进行下一步的工作了。

明天回教研室，会写《本地运行模式》、《YARN的伪分布式运行》以及《完全分布式的集群配置》。后面还会记录HDFS的概念原理以及MapReduce的概念原理。