写在前面
由于自己对大数据开发也比较感兴趣,于是乎开始学习一些大数据的框架,将自己学习大数据的经历记录下来,一方面可以方便自己及时回顾,另一方面也起到督促自己的作用。
第一步:配置前的准备
(1)我采用的是Centos7.5(1804)版本的,下载地址为CentOS中文站:点此下载
(2)Hadoop版本为2.9.2,下载地址为官网:点此下载
(3)jdk版本为JDK8(JDK1.8),下载地址为官网:点此下载
(4)虚拟机配置:一共三台。每台配置:硬盘40G,内存4G,CPU 2*2
,分区设置:/boot 300M
/swap 2GB
/ 全部
(这里我在配置分区后安装时,遇到过安装错误的问题,上网查后才得知原因是/boot
只分了200M,/boot
分区作为操作系统的内核及在引导过程中使用的文件,需要至少300M大小,所以修改了boot分区大小之后安装成功)
以下所有操作我都是用root下操作的,这种形式在正式工作环境中肯定是不可能的,如果想用一般用户,那么就可以创建一个一般用户
useradd yh
passwd 123456
之后把这个用户加入到sudoers:vim /etc/sudoers
在ROOT处添加以下内容:
yh ALL=(ALL) NOPASSWD:ALL
后,wq!
强制保存。
第二步:虚拟机配置
(1)关闭防火墙
CentOS 7默认使用的是firewall作为防火墙。
查看防火墙状态:firewall-cmd --state
关闭防火墙:systemctl stop firewalld.service
禁止防火墙开机启动:systemctl disable firewalld.service
(2)在/opt目录下创建两个文件夹module和software
创建文件夹mkdir /opt/module /opt/software
其中下载的一些东西都放在software里,安装的东西都装在module里。
把下载的jdk-8u271-linux-x64.tar.gz 和 hadoop-2.9.2.tar.gz都放在software文件夹下
(3)修改Hosts
修改host配置vim /etc/hosts
在文件后追加
192.168.238.100 hadoop100
192.168.238.101 hadoop101
192.168.238.102 hadoop102
192.168.238.103 hadoop103
192.168.238.104 hadoop104
192.168.238.105 hadoop105
192.168.238.106 hadoop106
192.168.238.107 hadoop107
192.168.238.108 hadoop108
192.168.238.109 hadoop109
其中左边是IP地址,右边是主机名,方便以后使用。
(4)修改静态IP
(每克隆一台都要做一遍)
修改ifcfg-eth33 vim /etc/sysconfig/network-scripts/ifcfg-eth33
将其中内容修改为以下
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.238.100
PREFIX=24
GATEWAY=192.168.238.2
DNS1=192.168.238.2
NAME=eth0
其他的上面没有的,而ifcfg-eth33中有的,可以删去。
注意:网关和DNS要和虚拟机的配置一样,查看虚拟机的NAT设置里面就有了。不同的主机IP地址设置要和上面第四步中对应起来,克隆虚拟机之后记得要修改其IP。
(5)改主机名
修改vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=hadoop100
NTPSERVERARGS=iburst
如果network里什么也没有写,就增加以上内容;如果有,那么修改HOSTNAME字段,改成你这台虚拟机对应的名字,我这里是hadoop100。
修改完以上配置之后,记得拍快照!!!快照取名 After Configuration,之后使用此快照,“链接克隆”克隆出两台虚拟机,也都要进行以上的虚拟机配置 。
好了现在按照上面的操作,手里有了三台虚拟机,分别是:
192.168.238.102 hadoop102
192.168.238.103 hadoop103
192.168.238.104 hadoop104
每两台主机之间Ping通,即可。
(注意IP地址和主机名对应起来,这样比较好记。刚开始我是自己瞎配了两台玩,后来正式配起来是hadoop102,hadoop103,hadoop104三台。起什么名字随意,自己记得住就行)
第三步:安装JAVA和Hadoop
(1)下载安装包
两种方式:
① 从Windiws下,参考我上面《第一步:配置前的准备》给的链接,下载jdk-8u271-linux-x64.tar.gz
和 hadoop-2.9.2.tar.gz
,之后用Xshell的XFTP传到三台虚拟机的/opt/software
下。
② 或者在Linux下wget进行下载到/opt/software
都可。
(2)解压
cd到software目录下,输入tar -zxvf jdk-8u271-linux-x64.tar.gz -C /opt/module
和tar -zxvf hadoop-2.9.2.tar.gz -C /opt/module
,将jdk和hadoop解压到 /opt/module 目录下。
在module下可以看到解压出来的hadoop-2.9.2
和jdk1.8.0_271
两个文件夹。
(3)配置环境变量
修改 vim /etc/profile
在文件最后,加上以下内容:
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_271
export PATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存后退出,输入source /etc/profile
之后输入java -version
和hadoop version
就可以看到java和hadoop的版本,环境变量配置结束。
以上,三台虚拟机配置基本完成,可以进行下一步的工作了。
明天回教研室,会写《本地运行模式》、《YARN的伪分布式运行》以及《完全分布式的集群配置》。后面还会记录HDFS的概念原理以及MapReduce的概念原理。