------------ 本文来自 阿P官方博客
思考1:为什么学习Hadoop?
思考2:Hadoop能解决什么问题?
一个小小的建议:我们每次再安装、配置应用时,最好从虚拟机开始,一步步安装
一、Hadoop概述
Apache提供的开源技术
除了Apache提供的,还有Cloudera的CDH,华为的HDP
发展历史(略)
安装方式
单机:下载安装包,直接解压就能使用。单机只能使用mapReduce。所有数据存储在本机文件系统中
伪分布式:
利用一个节点,模拟集群环境。
在一个节点上启动集群中所有需要的进程。
实际开发中最常接触。
完全分布式:集群部署。
二、Hadoop模块
Hadoop Common:公共工具,基本模块,类似java.lang包
Hadoop Distributed File System(HDFS):分布式文件系统(存储)
提供高速获取应用数据的方式
Hadoop YARN:用户进行任务调度和资源管理
Hadoop MapReduce:基于YARN并行计算的框架
Hadoop Ozone:对象存储
Hadoop Submarine:机器学习引擎
我记得在19年3月看的时候,是作为一个模块出现。
2020年3月看的时候,已经转移到组件里。目前权当还存在这个模块
三、Hadoop大版本
1.x:不再做技术支持
HDFS
MapReduce
2.x:流行。将原MapReduce拆分出MapReduce和YARN
HDFS:存储
MapReduce:计算
YARN:任务分配,资源调度
扩展
1.x和2.x、3.x完全不兼容,但是1.x与之后的版本设计思想基本一致
2.6版本以上支持Ozone
3.x包含所有模块。3.0版本始于2017年12月。
目前市面上公司大多使用2.x版本。
四、Hadoop伪分布式安装、配置(单节点)
虚拟机安装配置:
注意:
具体步骤就不再重复,参考我的上一篇博客`Zookeeper安装、配置`。
原文链接在下方给出。
计划:
静态IP:172.16.172.194
hostname:hadoop
关闭防火墙:systemctl stop firewalld
安装JDK:参考上一篇博客`Zookeeper安装、配置`。
Hadoop安装、解压、配置:
下载:wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
解压:
tar -zxvf hadoop-2.7.7.tar.gz
mv hadoop-2.7.7 /usr/local/hadoop
Hadoop配置:
vim hadoop-env.sh:修改以下内容
(tips:查找java安装目录命令:ls -lrt /etc/alternatives/java)
`
JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.242.b08-0.el7_7.x86_64/jre
HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
`
source hadoop-env.sh
vim core-site.xml:加入以下内容
`
<configuration>
<!--指定namenode地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop:9000</value>
</property>
<!--指定DataNode、NameNode存放目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
`
vim hdfs-site.xml:加入以下内容
`
<configuration>
<!--配置复本数量,伪分布式复本数量必须为1-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
`
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml:加入以下内容
`
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
`
vim yarn-site.xml:加入以下内容
`
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
`
vim slaves:加入以下内容
`
hadoop
`
vim /etc/profile:加入以下内容
`
HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
`
source /etc/profile
hadoop namenode -format
start-all.sh:这里要输入很多密码,配置ssh后,下次就不会再输入密码
浏览器访问:http://172.16.172.194:50070/看是否出现hadoop节点管理界面。
jps:查看是否有以下节点存在
`
NodeManager
NameNode
SecondaryNameNode
DataNode
ResourceManager
`