Hadoop概述、伪分布式安装、配置

------------ 本文来自阿P官方博客

思考1：为什么学习Hadoop？
思考2：Hadoop能解决什么问题？
一个小小的建议：我们每次再安装、配置应用时，最好从虚拟机开始，一步步安装

一、Hadoop概述

Apache提供的开源技术
除了Apache提供的，还有Cloudera的CDH，华为的HDP
发展历史（略）
安装方式
    单机：下载安装包，直接解压就能使用。单机只能使用mapReduce。所有数据存储在本机文件系统中
    伪分布式：
        利用一个节点，模拟集群环境。
        在一个节点上启动集群中所有需要的进程。
        实际开发中最常接触。
    完全分布式：集群部署。

二、Hadoop模块

Hadoop Common：公共工具，基本模块，类似java.lang包
Hadoop Distributed File System（HDFS）：分布式文件系统(存储)
    提供高速获取应用数据的方式
Hadoop YARN：用户进行任务调度和资源管理
Hadoop MapReduce：基于YARN并行计算的框架
Hadoop Ozone：对象存储
Hadoop Submarine：机器学习引擎
    我记得在19年3月看的时候，是作为一个模块出现。
    2020年3月看的时候，已经转移到组件里。目前权当还存在这个模块

三、Hadoop大版本

1.x：不再做技术支持
    HDFS
    MapReduce
2.x：流行。将原MapReduce拆分出MapReduce和YARN
    HDFS：存储
    MapReduce：计算
    YARN：任务分配，资源调度
扩展
    1.x和2.x、3.x完全不兼容，但是1.x与之后的版本设计思想基本一致
    2.6版本以上支持Ozone
    3.x包含所有模块。3.0版本始于2017年12月。
    目前市面上公司大多使用2.x版本。

四、Hadoop伪分布式安装、配置（单节点）

虚拟机安装配置：
    注意：
        具体步骤就不再重复，参考我的上一篇博客`Zookeeper安装、配置`。
        原文链接在下方给出。
    计划：
        静态IP：172.16.172.194
        hostname：hadoop
        关闭防火墙：systemctl stop firewalld
安装JDK：参考上一篇博客`Zookeeper安装、配置`。
Hadoop安装、解压、配置：
    下载：wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
    解压:
        tar -zxvf hadoop-2.7.7.tar.gz
        mv hadoop-2.7.7 /usr/local/hadoop
Hadoop配置：
    vim hadoop-env.sh：修改以下内容
    (tips:查找java安装目录命令：ls -lrt /etc/alternatives/java)

Zookeeper安装、配置


    `
    JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.242.b08-0.el7_7.x86_64/jre
    HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
    `

    source hadoop-env.sh
    vim core-site.xml：加入以下内容

        `
        <configuration>
            <!--指定namenode地址-->
            <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop:9000</value>
            </property>
            <!--指定DataNode、NameNode存放目录-->
            <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/local/hadoop/tmp</value>
            </property>
        </configuration>
        `

    vim hdfs-site.xml：加入以下内容

        `
        <configuration>
            <!--配置复本数量，伪分布式复本数量必须为1-->
            <property>
                <name>dfs.replication</name>
                <value>1</value>
            </property>
        </configuration>
        `

    cp mapred-site.xml.template mapred-site.xml
    vim mapred-site.xml：加入以下内容

        `
        <configuration>
            <property>
               <name>mapreduce.framework.name</name>
                <value>yarn</value>
            </property>
        </configuration>
        `

    vim yarn-site.xml：加入以下内容

        `
        <configuration>
            <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>hadoop</value>
            </property>
            <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
            </property>
        </configuration>
        `

    vim slaves：加入以下内容

        `
        hadoop
        `

    vim /etc/profile：加入以下内容

        `
        HADOOP_HOME=/usr/local/hadoop
        export PATH=$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
        `

    source /etc/profile
    hadoop namenode -format
    start-all.sh：这里要输入很多密码，配置ssh后，下次就不会再输入密码
    浏览器访问：http://172.16.172.194:50070/看是否出现hadoop节点管理界面。
    jps：查看是否有以下节点存在

        `
        NodeManager
        NameNode
        SecondaryNameNode
        DataNode
        ResourceManager
        `