HDFS文件系统

HDFS是一个分布式文件系统，采用分而治之的设计思想，将大文件、大批量文件，分布式存放在大量服务器上，为各类分布式运算框架(MapReduce，spark，tez等)提供数据存储服务。首先，它是一个文件系统，用于存储文件，通过统一的命名空间目录树来定位文件，对用户来说，DataNode是透明的，HDFS相当于是提供了一个统一的目录结构，用户上传的文件的适合，只需要和这个统一的目录结构打交道，虽然实际上用户的文件被切成不同的block存放在了不同的DataNode上，这部分元信息被存放在NameNode中；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

虚拟机网络配置

HDFS

基本特性

适合用来做数据分析，并不适合用来做网盘应用，因为，不便修改，延迟大，网络开销大，成本太高

HDFS中的文件在物理上是分块存储(block)，块的大小可以通过配置参数(dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M；
HDFS文件系统会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data；
目录结构及文件分块信息(元数据)的管理由NameNode节点承担。NameNode是HDFS集群主节点，负责维护整个hdfs文件系统的目录树，以及每一个路径(文件)所对应的block块信息(block的id，及所在的DataNode服务器)；
文件的各个block的存储管理由DataNode节点承担。DataNode是HDFS集群从节点，每一个block都可以在多个DataNode上存储多个副本(副本数量也可以通过参数设置dfs.replication)；
HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的修改；

常见命令

// 列出文件
hadoop fs -ls /

// 创建目录
hadoop fs -mkdir 目录名称

// 查看文件
hadoop fs -cat 文件名称

// 删除文件或文件夹
hadoop fs -rm -r /aaa/bbb/

// 从本地文件系统中拷贝文件到hdfs路径去
hadoop  fs  -copyFromLocal  ./jdk.tar.gz  /aaa/
// 上传，等同于copyFromLocal
hadoop  fs  -put  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2

// 从hdfs拷贝到本地
hadoop fs -copyToLocal /aaa/jdk.tar.gz
// 从hdfs下载文件到本地，等同于copyToLocal 
hadoop fs -get  /aaa/jdk.tar.gz

// 统计文件系统的可用空间信息
hadoop  fs  -df  -h  /

// 统计文件夹的大小信息
hadoop  fs  -du  -s  -h /aaa/*

// 统计一个指定目录下的文件节点数量
hadoop fs -count /aaa/

// 设置hdfs中文件的副本数量，这里设置的副本数只是记录在NameNode的元数据中，是否真的会有这么多副本，还得看DataNode的数量
hadoop fs -setrep 3 /aaa/jdk.tar.gz

常用参数

hdfs-site.xml

// 每个block块的大小，默认128M
dfs.blocksize

// 文件副本个数
dfs.replication

工作机制

HDFS集群分为两大角色：NameNode、DataNode；
NameNode负责管理整个文件系统的元数据；
DataNode负责管理用户的文件数据块；
文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台DataNode上；
每一个文件块可以有多个副本，并存放在不同的DataNode上；
DataNode会定期向NameNode汇报自身所保存的文件block信息，而NameNode则会负责保持文件的副本数量；
HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向NameNode申请来进行；

NameNode机制

NameNode职责：负责客户端请求的响应；元数据的管理(查询，修改)；

NameNode对数据的管理采用了三种存储形式：

内存元数据(NameSystem)；
磁盘元数据镜像文件；
数据操作日志文件(可通过日志运算出元数据)；

元数据管理机制

内存中有一份完整的元数据：内存meta data；
磁盘有一个“准完整”的元数据镜像：fsimage，文件存在于NameNode的工作目录中；
用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志：edits文件，当客户端对HDFS中的文件进行新增或者修改操作，操作记录首先被记入edits日志文件中，当客户端操作成功后，相应的元数据会更新到内存meta.data中；

元数据checkpoint

每隔一段时间，会由SecondaryNameNode将NameNode上积累的所有edits和一个最新的fsimage下载到本地，并加载到内存进行merge，这个过程称为checkpoint。
NameNode和SecondaryNameNode的工作目录存储结构完全相同，所以，当NameNode故障退出需要重新恢复时，可以从SecondaryNameNode的工作目录中将fsimage拷贝到NameNode的工作目录，以恢复NameNode的元数据。

checkpoint参数

dfs.namenode.checkpoint.check.period=60  #检查触发条件是否满足的频率，60秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
#以上两个参数做checkpoint操作时，secondary namenode的本地工作目录
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}

dfs.namenode.checkpoint.max-retries=3  #最大重试次数
dfs.namenode.checkpoint.period=3600  #两次checkpoint之间的时间间隔3600秒
dfs.namenode.checkpoint.txns=1000000 #两次checkpoint之间最大的操作记录

DataNode机制

Datanode工作职责：存储管理用户的文件块数据；定期向NameNode汇报自身所持有的block信息(通过心跳信息上报)，这点很重要，因为当集群中发生某些block副本失效时，集群如何恢复block初始副本数量的问题。

<property>
    <name>dfs.blockreport.intervalMsec</name>
    <value>3600000</value>
    <description>Determines block reporting interval in milliseconds.</description>
</property>

DataNode掉线判断时限参数

DataNode进程死亡或者网络故障造成DataNode无法与NameNode通信，NameNode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超时时长的计算公式为：

timeout  = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval

而默认的heartbeat.recheck.interval 大小为5分钟，dfs.heartbeat.interval默认为3秒。
需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒，dfs.heartbeat.interval的单位为秒。所以，举个例子，如果heartbeat.recheck.interval设置为5000(毫秒)，dfs.heartbeat.interval设置为3(秒，默认)，则总的超时时间为40秒。

<property>
    <name>heartbeat.recheck.interval</name>
    <value>2000</value>
</property>
<property>
    <name>dfs.heartbeat.interval</name>
    <value>1</value>
</property>

文件上传机制

用户上传的文件，被切成诺干个block块存放在不同的DataNode中，并且每个文件都会在集群中存储多个文件副本，副本的数量可以由用户指定。至于文件被切成多少个block快，每个块在哪台DataNode上，这部分元信息存储在NameNode中。
客户端要向HDFS写数据，首先要跟NameNode通信以确认可以写文件并获得接收文件block的DataNode，然后，客户端按顺序将文件逐个block传递给相应DataNode，并由接收到block的DataNode负责向其他DataNode复制block的副本。

根NameNode通信请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在；
NameNode返回是否可以上传；
client请求第一个block该传输到哪些datanode服务器上；
NameNode返回3个DataNode服务器ABC；
client请求3台dn中的一台A上传数据(本质上是一个RPC调用，建立pipeline)，A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端；
client开始往A上传第一个block(先从磁盘读取数据放到一个本地内存缓存)，以packet为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答；
当一个block传输完成之后，client再次请求NameNode上传第二个block的服务器；

文件下载机制

客户端将要读取的文件路径发送给NameNode，NameNode获取文件的元信息（主要是block的存放位置信息）返回给客户端，客户端根据返回的信息找到相应DataNode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件。

跟NameNode通信查询元数据，找到文件块所在的DataNode服务器；
挑选一台DataNode(就近原则，然后随机)服务器，请求建立socket流；
DataNode开始发送数据(从磁盘里面读取数据放入流，以packet为单位来做校验)；
客户端以packet为单位接收，现在本地缓存，然后写入目标文件；

HDFS客户端编程场景

数据采集

YARN

运算资源调度。
MapReduce程序应该是在很多机器上并行启动，而且先执行MapTask，当众多的MapTask都处理完自己的数据后，还需要启动众多的ReduceTask，这个过程如果用用户自己手动调度不太现实，需要一个自动化的调度平台，hadoop中就为运行MapReduce之类的分布式运算程序开发了一个自动化调度平台：YARN。

YARN集群中有两个角色：1台 ResourceManager 和 N台 NodeManager。ResourceManager一般安装在一台专门的机器上，NodeManager应该与HDFS中的DataNode重叠在一起。
yarn-site.xml

<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hdp-04</value>
</property>

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

Linux环境准备

接下来主要介绍Hadoop集群环境的搭建过程，实际应用中应该不会这样做，而是通过一些管理工具进行安装，比如可视化安装：Ambari。

虚拟机镜像

软件安装包

前置条件

CentOS7
Oracle VM VirtualBox

安装过程

这就相当于通过虚拟机搭建一个局域网，安装配置过程已经截图并整理成PPT。主要需要注意的地方就是网络的配置，我这里通过配置两个网卡来实现：一个用于访问外部网络(NAT)；一个用于和window主机交互(Host-Only)。

我的系统是centos7

vi /etc/sysconfig/network-scripts/ifcfg-enp0s3

配置文件修改成以下内容

TYPE=Ethernet

PROXY_METHOD=none

BROWSER_ONLY=no

BOOTPROTO=static

DEFROUTE=yes

IPV4_FAILURE_FATAL=no

IPV6INIT=yes

NAME=enp0s3

UUID=4704faea-0e23-4ad9-a06c-3e37e577636c

DEVICE=enp0s3

ONBOOT=yes

NM_CONTROLLED=yes

IPADDR=192.168.88.21

虚拟机安装过程

基础配置

添加用户

分别在三台服务器上执行创建 haddop用户，同时设置密码为hadoop

useradd hadoop

passwd hadoop

创建用户之后切换为hadoop用户登录，我们所有的操作都基于hadoop用户

配置host

分别在三台服务器配置host

vi /etc/hosts

添加以下内容

192.168.88.21 master

192.168.88.22 slave1

192.168.88.23 slave2

配置免密登录

分别在三台机器上安装 openssh-server

yum install openssh-server

分别在三台机器上执行以下命令

mkdir .ssh
chmod 700 .ssh
ssh-keygen -t rsa
cp id_rsa.pub authorized_keys
chmod 600 authorized_keys

在 22 服务器执行

scp /home/hadoop/.ssh/id_rsa.pub hadoop@master:/home/hadoop/.ssh/id_rsa.pub.slave1

在 23 服务器执行

scp /home/hadoop/.ssh/id_rsa.pub hadoop@master:/home/hadoop/.ssh/id_rsa.pub.slave2

在 21 服务器执行

cat id_rsa.pub.slave1 >> authorized_keys

cat id_rsa.pub.slave2 >> authorized_keys

scp /home/hadoop/.ssh/authorized_keys hadoop@slave1:/home/hadoop/.ssh/authorized_keys

scp /home/hadoop/.ssh/authorized_keys hadoop@slave2:/home/hadoop/.ssh/authorized_keys

至此配置完成，接下来是测试：

在 21 服务器执行

ssh salve1
ssh salve2

有个问题，之前配置好了之后还是不停提示要输入密钥，然后安装了 openssh-server 之后，再测试就可以了，不知道是不是这个的影响。

配置JDK

jdk-8u171-linux-x64.tar.gz

在/home/hadoop 目录下创建java文件夹

mkdir java

在java 目录内解压安装包

tar -zxvf jdk-8u171-linux-x64.tar.gz

然后分别拷贝到两台slave

scr -r jdk1.8 hadoop@slave1:/home/hadoop
scr -r jdk1.8 hadoop@slave2:/home/hadoop

分别在三台机器上配置JAVA_HOME

export JAVA_HOME=/home/hadoop/jdk1.8

export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar

:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

测试：

执行 java -version 看控制台输出

其它配置

修改windos下的hosts文件，因为到时候再浏览器上访问的时候会用到域名

C:\WINDOWS\System32\drivers\etc\hosts

192.168.88.21 master

192.168.88.22 slave1

192.168.88.23   slave2

修改linux系统的hostname，注意不是修改/etc/hoss文件，centos7永久修改hostname使用以下命令

hostnamectl set-hostname 名称

安装Hadoop

下载安装

1、官网下载，这个地址下载有点慢

http://apache.claz.org

2、以下的地址下载更快一些

http://mirror.bit.edu.cn/apache/

https://mirrors.tuna.tsinghua.edu.cn/apache/

我最终下载的版本是：hadoop-2.7.6.tar.gz

安装过程很简单，只需要直接解压就可以了。

三台机器机器最终的配置基本一样，所以我们只需要在一台机器上配置好，然后拷贝到其它机器就好，这里是在master机器上配置。

在master上执行以下命令

cd /home/Hadoop

mkdir -p cludata/hadoop

cd cludata/hadoop

mkdir -p hdfs/data hdfs/name temp

tar -zxvf hadoop-2.7.6.tar.gz

HADOOP_HOME

就是配置hadoop环境变量，这个需要在三台机器上分别执行

vi ~/.bash_profile

export HADOOP_HOME=/home/hadoop/hadoop-2.7.6

export PATH=$PATH:$JAVA_HOME/bin::$HADOOP_HOME/bin:$HADOOP_HOME/sbin

配置文件

主要需要配置以下几个配置文件：core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml、slaves。然后可能还需要再hadoop-env.sh中添加JAVA环境变量。

以下配置文件可作为参考，还有很多其它配置项。

core-site.xml

该配置文件主要用于定义系统级别的参数，如HDFS、URL、hadoop的临时目录

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://master:9000</value>
    <description>文件系统主机和端口</description>   
  </property>
  <property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
    <description>每个block的大小</description>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>file:/home/hadoop/cludata/hadoop/temp</value>
    <description>临时目录</description>   
  </property>
</configuration>

dfs-site.xml

<configuration>
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>master:9001</value>
    <description>通过web界面来查看HDFS状态</description>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name> 
    <value>file:/home/hadoop/cludata/hadoop/hdfs/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>  
    <value>file:/home/hadoop/cludata/hadoop/hdfs/data</value>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
    <description>每个Block有2个备份</description>
  </property>
  <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
    <description>是否通过http协议访问hdfs文件</description>
  </property>
</configuration>

mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>master:10020</value>
  </property>
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>master:19888</value>
  </property>
</configuration>

yarn-site.xml

<configuration>
  <!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>master:8032</value>
  </property>
  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>master:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>master:8031</value>
  </property>
  <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>master:8033</value>
  </property>
  <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>master:8088</value>
  </property>
  <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>8192</value>
  </property>
</configuration>

slaves

这个配置文件主要是配置 datanode

把localhost去掉，添加以下内容

slave1

slave2

配置完成之后，将整个hadoop文件夹拷贝到其它两台机器

cd /home/hadoop

scp -r hadoop-2.7.6 hadoop@slave1:/home/hadoop/

scp -r hadoop-2.7.6 hadoop@slave2:/home/hadoop/

格式化

在启动hadoop之前，需要先格式化HDFS文件系统，只需要在master上执行即可

hadoop namenode -format

格式化

启动

有关于hadoop的一些脚本命令，存放在根目录下的sbin 文件夹下：即/home/hadoop /hadoop-2.7.6/sbin

脚本命令

所以，先进入sbin目录

cd /home/hadoop /hadoop-2.7.6/sbin

启动NameNode

hadoop-daemon.sh start namenode

执行该命令后可以通过 ps -ef|grep hadoop 命令查看hadoop进程，也可以使用jsp命令查看JVM进行。运行jsp命令之后，可以可能到 Namenode进程。

启动DataNode

hadoop-daemon.sh start datanode

在master上执行该命令后，在两台slave上分别执行 jps 命令查看 datanode是否启动，如果发现 Datanode 进程说明启动成功。

提示：其实以上两个启动过程可以通过一个脚本来启动，hadoop里面也提供了这个脚本，也是在sbin目录中，只要执行这个脚本就可以了

./start-dfs.sh

//对应的停止命令

./stop-dfs.sh

启动ResourceManager

yarn-daemon.sh start resourcemanager

执行该命令之后，使用jsp命令可以查看到ResourceManager说明启动成功。

启动NodeManager

yarn-daemon.sh start nodemanager

同理，通过jpps命令可以看到 NodeManage进程。

注意：以上两个过程也可以通过一个脚本来启动

./start-yarn.sh

//对应的停止命令

./stop-yarn.sh

浏览器访问

http://192.168.88.21:50070

可以看到以下界面

hadoop

http://192.168.88.21:8088

可以看到以下界面

yarn

常见命令

hadoop下有一些常见命令

列出文件：hadoop fs -ls /

创建目录：hadoop fs -mkdir 目录

上传文件：hadoop fs -put filename 目录

查看文件：hadoop fs -cat 文件

测试案例

启动之后，可以用hadoop来处理一个demo，这个demo程序是hadoop在安装包里面已经提供了。

hadoop jar /home/hadoop/hadoop-2.7.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar pi 5 10

Pi 5 10 表示开 5个Map ， 10 个 Reduce

执行这命令之后，控制台会有一系列输出，同时在浏览器上也可以看到效果

http://192.168.88.21:8088

MapReducer

其实上面就是一个Map Reducer 程序，这是官方提供的一个Demo，不过我们好像并不是很清楚这个程序的运行机制是什么样的，所以在此之前，有必要了解一下MapReducer。MapReducer可以在任何地方运行程序，访问HDFS上的文件并进行统计运算，并且可以把统计的结果写回HDFS的结果文件中。包括接下来介绍了HIVE，其实内部也是基于MapReducer实现，只不过HIVE内部进行了大量封装，所以我们才可以写SQL语句，其实每条SQL语句，都可以看成是一个MapReducer程序。MapReducer中有两个概念：Map 和 Reducer。

Map阶段：将每一行文本数据变成<单词,1>这样的kv数据

Reduce阶段：将相同单词的一组kv数据进行聚合：累加所有的v

下面是一个简单WordCount 示例

pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.hand.sxy</groupId>
    <artifactId>MapReducer</artifactId>
    <version>1.0</version>

    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.6</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>2.7.6</version>
        </dependency>
    </dependencies>

</project>

WordCount.java

package com.hand.sxy;

import com.hand.sxy.utils.FileUtil;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;

public class WordCount {

    public static void main(String[] args) throws Exception {

        FileUtil.deleteDir("/output");
        Configuration conf = new Configuration();

        String[] otherArgs = new String[]{"hdfs://master:9000/test/dream.txt", "/output"};
        if (otherArgs.length != 2) {
            System.err.println("Usage:Merge and duplicate removal <in> <out>");
            System.exit(2);
        }

        Job job = Job.getInstance(conf, "WordCount");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(WordCount.TokenizerMapper.class);
        job.setReducerClass(WordCount.IntSumReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }


    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

        public static final IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                this.word.set(itr.nextToken());
                context.write(this.word, one);
            }
        }

    }

    public static class IntSumReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            IntWritable val;
            for (Iterator i = values.iterator(); i.hasNext(); sum += val.get()) {
                val = (IntWritable) i.next();
            }
            this.result.set(sum);
            context.write(key, this.result);
        }
    }
}

这里面就涉及到了一些API，这个可以自己去网上查，这里不做过多介绍。

接下来需要做的就是执行这个程序，首先，将这个程序打包成jar，然后上传服务器

mvn clen install

在hdfs系统上准备好数据，编辑 dream.txt 文件内容如下

Hello bob

I am good

How are you

I am fine

Good good study

上传dream.txt到hdfs系统

hadoop fs -mkdit /test
hadoop fs -put dream.txt /test/dream.txt

执行MapReducer-1.0.jar程序

hadoop jar MapReducer-1.0.jar com.hand.sxy.WordCount

在控制台和浏览器上观察

image.png

浏览器打开：http://master:8088/cluster/apps

image.png

浏览器打开：http://master:50070/explorer.html#/output

程序结果即在hsfs中的 /output/part-r-00000文件中

hadoop fs -cat /output/part-r-00000

输出的就是每个单词出现的次数，这就是一个最简单的MapReducer程序。

HA集群

hadoop的HA集群，即hadoop的高可用集群配置，为了解决hadoop中的NameNode单点故障问题。这个配置的时候比较繁琐，有空再补上

安装HIVE

HIVE是在MapReducer上的一层封装，通过写sql方式来实现MapReducer程序。什么意思？就是说大部分情况下，有了HIVE之后，不需要再开发MapReducer程序了，直接写HQL即可，大大节约了时间成本。HIVE非常强大，在创建hie表的时候，字段类型用的是java里面的数据类型，连Map类型都可以用，很强大。

下载安装

http://mirror.bit.edu.cn/apache/hive/
http://mirrors.hust.edu.cn/apache/hive/
http://mirrors.shu.edu.cn/apache/hive/
http://mirrors.tuna.tsinghua.edu.cn/apache/hive/

安装位置随便安装到那台机器都都可以，先解压

tax -zxvf apache-hive-1.2.2-bin.tar.gz

6.2. 配置文件

添加一个hive-site.xml配置文件

<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://centos81:3306/hive?
createDatabaseIfNotExist=true</value>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>root</value>
  </property>
</configuration>

这里其实就是配置hive元数据的存放位置，即hive中的数据库名、表名、字段等西信息。其实不配置也没关系， hive默认内置了一个其它的数据库。

这里选择的是mysql数据库，所以还需要提供一个mysql驱动包，这里是：mysql-connector-java-5.1.46.jar

启动

cd hive-1.2.2

bin/hive

如果你已经安装好了mysql，执行这个命令之后，就会在mysql下创建一个hive数据库。如图：

之后，就可以用一些hive的语法了。

常见命令

和我们的sql非常类似

列出数据库：show databases;

创建数据库：create database 数据库名;

使用数据库：use 数据库 名;

创建数据表：create table 表名 (xxx);

创建外部表：create external table 表名 (xxx);

创建分区表：create external table 表名 (xxx) partitioned by (day string);

配置分隔符：在建表语句后面加 row format delimited fields terminated by ',' ;

测试

在hive中新建数据库和表，并在hadoop中上传文件，看看在hivez怎么通过sql查出来。

create database tsdb;
use tsdb;
create table t_test1(id int,name string,age int) row format delimited fields terminated by ',';

执行以上命令之后，观察在hadoop中hdfs的目录

image.png

可以看到，生成了一个和数据库名相同的文件夹子，点进去发现，也生成了一个和表名对应的目录。

vi t_test1.txt

文件内容如下：

1,xiaoyong,20
2,gaoxiao,40
3,liuxin,19

上传这个文件到hdfs

hadoop fs -put t_test1.txt /user/hive/warehouse/tsdb.db/t_test1

在hive控制台查询

select * from t_test1;

[图片上传失败...(image-83e835-1535979338058)]

结果已经查出来了。

这本是一个MapReducer程序做的事情，现在一个SQL就搞定了。Hive中还有很多概念，这里就不做过多结算了。

安装MySQL

这里安装MySQL的目的就一个：保存HIVE中的元数据。在安装MySQL之前，先装一个虚拟机，修改IP，修改四台机器的 /etc/host，这就当作是一台专用数据库服务器。

更新yum源

下载mysql的yum源：

wget -P /home/lisonglin [http://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm](http://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm)

安装mysql的yum源：

rpm -ivh mysql57-community-release-el7-11.noarch.rpm

安装

执行以下命令，然后一直按y就可以了

yum install mysql-community-server

启动测试

启动服务

systemctl start mysqld

通过mysql客户但登录mysql，默认是不需要密码

mysql -uroot

设置密码

set password = passeord(‘root’);

修改配置文件，这里只修改编码集，配置文件默认在 /etc/my.cnf

show variables lie ‘character%’;

vi /etc/my.cnf

[mysql]

default-character-set = utf8

[mysqld]

character_set_server = utf8

常用命令

常见的启动、停止、重启等命令

启动：systemctl start mysqld   

停止：# systemctl stop mysqld 

重启：systemctl restart mysqld 

设置开机启动：systemctl enable mysqld 

查看 MySQL Server 状态：systemctl status mysqld

安装Zookeeper

Zookeeper是一个基础组件，主要功能包括：

可以为客户端管理少量数据，其中在zookeeeper中数据为键值格式。其中key类似于文件目录结构，但不是目录

/aa “valuea”

/aa/cc “valueb”

可以为客户端监听指定数据节点得装填，并在数据节点发生变化时通知客户端。
应用场景：zookeeeper的应用场景可以非常广泛，比如微服务架构中的服务注册中心，用于服务上下线动态感知。zookeeper在hadoop体系中是为了高可用，是为了解决DataNode的单点故障问题；在Hbase中保存了Hbase各个ReginServer和master的信息。

下载安装

生产环境一般是部署zookeeper集群，部署到奇数台服务器，一般3台或者5台。zookeeper有一个投票选举机制，所以有个leader 和 flower概念。

下载地址：http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.12/

解压：tax -zxvf zookeeper-3.4.12.tar.gz

8.2. 配置文件

cd zookeeper-3.4.12/conf

cp zoo_sample.cfg zoo.cfg

vi zoo.cfg

我的配置文件内容如下：

# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial 
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between 
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just 
# example sakes.
dataDir=/home/hadoop/cludata/zkdata
# the port at which the clients will connect
clientPort=2181
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1
server.21=master:2888:3888
server.22=slave1:2888:3888
server.23=slave2:2888:3888

创建zk数据目录

cd ~
mkdir -p cludata/zkdata

启动

在三台服务器下分别执行以下命令

cd ~/zookeeper-3.4.12/

bin/zkServer.sh start

在启动之后可以查看状态

bin/zkServer.sh status

启动脚本

为了方便启动，提供一个启动脚本

常见命令

进入客户端

cd zookeeper-3.4.12

bin/zkCli.sh

//或者连接到其它服务器

bin/zkCli.sh -server slave1:2181

zookeeper 下提供了一些常见客户端命令

创建节点：create /aa “value”

查看节点：ls /

查看数据：get /aa

修改数据：set /add “vakue2”

删除节点：rmr /aa

监听数据：get /aa watch

安装HBASE

HBase是一个基于HDFS的NoSQL数据库，可以提供数据的实时随机读写，其中包括的概念有：HMaster、HRegionServer、库名、表名、行键、列族等，其中HBase集群中的各个节点信息是维护在zookeeper中的。

下载安装

下载地址：http://apache.claz.org/hbase/1.2.6.1/

tar -zxvf

HBase中包括两个角色：HMaster、HRegionServer。HMaster负责管理HRegionServer，数据读写交给HRegionServer。其中，HRegionServer应该和HDFS中的DataNode安装在一起。

配置文件

主要修改三个配置文件：hbase-env.sh、hbase-site.xml、regionservers

cd hbase-1.2.6.1/conf

修改hbase-env.sh

export JAVA_HOME=/home/hadoop/jdk1.8

//hbase自己有一套zookeeper管理机制，这里不使用自带的，而是使用我们配置的

export HBASE_MANAGES_ZK=false

修改hbase-site.xml

<configuration>
  <!-- 指定hbase在HDFS上存储的路径 -->
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://master:9000/hbase</value>
  </property>

  <!-- 指定hbase是分布式的 -->
  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>

  <!-- 指定zk的地址，多个用“,”分割 -->
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>master:2181,slave1:2181,slave2:2181</value>
  </property>
</configuration>

修改regionservers，这里就是配置HRegionServer服务器的

slave1
slave2

然后将安装包拷贝到slave1 和 slave2

scr -r hbase-1.2.6.1 hadoop@slave1:/home/hadoop
scr -r hbase-1.2.6.1 hadoop@slave2:/home/hadoop

启动

启动hbase的时候有个要求，需要各个服务器之间时间差不超过30s，所以在启动之前需要先设置同步一下服务器时间，可以选择时间服务器，这里就直接用命令了

date -s "2018-07-08 16:39:03"

//写入bios，防止重启系统时间又变了

hwclock -w

启动hdfs，不启动yarn也没关系，在master服务器启动

cd hadoop-2.7.6
sbin/start-dfs.sh

启动zookeeper，进入三台服务器启动

cd zookeeper-3.4.12
bin/zkServer.sh start

启动hbase

bin/start-hbase.sh

启动之后，三台服务器上的进程分别如下，可以看到hbase已经启动起来了

启动成功之后，也可以在浏览器上观察效果
http://master:16010

前面已经说过，hbase相关的节点信息和zookeeper已经关联了，所以可以在zookeeper上查看hbase相关信息

cd zookeeper-3.4.12
bin/zkCli.sh

Hbase的文件存储是基于HDFS的，所以也可以在hdfs上看到hbase相关的目录
打开浏览器：http://master:50070/explorer.htm

命令行

Hbase提供了一些交互命令，但是这种情况我们用的不多一般是在程序中通过API来对hbase交互。

进入hbase命令行客户端

cd hbase-1.2.6.1
bin/hbase shell

常用命令如下：

image.png

常见用法

创建表

create 表名, 列族名, 列族名 ……
create 't_user_info','base_info','extra_info'

插入数据

put 't_user_info','001','base_info:username','zhangsan'
put 't_user_info','001','base_info:age','18'

查询数据

scan 't_user_info'
get 't_user_info','001'

删除kv数据

delete 't_user_info','001','base_info:sex'
deleteall 't_user_info','001'

删除表

先禁用，然后删除
disable 't_user_info'

drop 't_user_info'

API

创建一个连接

Connection conn = ConnectionFactory.createConnection(conf);

拿到一个DDL容器

Admin admin = conn.getAdmin();

用表管理器的API去操作表

admin.createTable(HTableDescriptor descriptor);

创建一个连接

Connection conn = ConnectionFactory.createConnection(conf);

安装Flume

Flume用于数据采集。在实际开发中，有各种各样的数据来源，比如：kafka、mysql、hbase等等，而我们的业务系统，往往需要根据不用的数据来源开发不同的程序。Flume就相当一层壳，并且里面提供了一些常用的实现类，有个核心概念就Agent，可以启动Agent程序进行数据采集，大大减少了我们的开发时间。

不过看网上说，Flume在严格场景是不推荐使用的，会有问题。所以简单了解一下吧。

下载安装

下载地址

http://mirror.bit.edu.cn/apache/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz http://mirrors.hust.edu.cn/apache/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz http://mirrors.shu.edu.cn/apache/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz

解压并拷贝到其它两台机器

tar -zxvf apache-flume-1.8.0-bin.tar.gz

scp -r flume-1.8.0 hadoop@slave1:/home/hadoop

scp -r flume-1.8.0 hadoop@slave2:/home/hadoop

配置文件

使用Flume主要就是配置了，需要编写的配置内容比较多。这里就不过多介绍了，有兴趣的网上了解一下。

问题总结

DataNode无法启动

多次执行hadoop namenode -format命令，slave 上的执行这个命令之前，我已经清空了三台服务器下的一些目录，并且停掉了所有进程

cd /home/hadoop/hadoop
rm -rf temp/*
rm -rf hdfs/name/* hdfs/data/*
cd hadoop-2.7.6
rm -rf logs/*
sbin/stop-all.sh

然后在master上执行以下命令

sbin/ hadoop-daemon.sh start namenode
sbin/ hadoop-daemon.sh start datanode

执行该命令后，发现在 master节点上找到了 NameNode 和 DataNode 进行，但是在其它两台服务器上未找到 DataNode 进程。

最后的解决方案：

分别在slave1 和 slave2 上执行以下命令

sbin/ hadoop-daemon.sh start datanode

这时候可以在 slave1 和 slave2 上找到 DataNode进程。

同时，在浏览器上可以发现3个DataNode
http://192.168.88.21:50070/dfshealth.html#tab-datanode

可能应该在三台服务器上把 hdfs目录下的所有文件和文件夹都清空，或者把整个hdfs目录删除。

同理，对于slave1 和slave2 上的没有NodeManager进程情况，就手动在slave1和slave2上启动

yarn-daemon.sh start nodemanager

http://192.168.88.21:8088/cluster/nodes

脚本启动权限问题

执行 sbin/start-dfs.fs 命令，通过ssh的方式启动slave1和slave2节点，提示没有/tmp目录的权限，但是很好奇都是hadoop用户，启动本地的NameNode却没有权限问题。单丝，虽然提示权限问题，两个DataNode却都已经启动了。

为了去除这个警告，尝试是将 /tmp 目录的权限赋给hadoop用户，分别在三台机器上执行以下命令

chown -R hadoop /tmp

再次重启hadoop

sbin/stat-dfs.sh

sbin/stat-yarn.sh

发现警告已经没有了，同时两台DataNode已经启动成功。

这时候，三台机器下分别启动的进程有

**master**：NameNode、SecondaryNameNode、ResourceManager

**slave1**：DataNode、NodeManager、

**slave2**：DataNode、NodeManager、

可以这样理解：NameNode用于管理DataNode，而ResourceManager用于管理NodeManager。

其实这个问题还有另外一种解决方案，就是修改 etc/hadoop/hadoop.env配置文件，里面有那么个选项可以修改。

Hadoop

HDFS文件系统

基本特性

常见命令

常用参数

工作机制

NameNode机制

元数据管理机制

元数据checkpoint

checkpoint参数

DataNode机制

DataNode掉线判断时限参数

文件上传机制

文件下载机制

HDFS客户端编程场景

YARN

Linux环境准备

前置条件

安装过程

基础配置

添加用户

配置host

配置免密登录

配置JDK

其它配置

安装Hadoop

下载安装

HADOOP_HOME

配置文件

格式化

启动

常见命令

测试案例

MapReducer

HA集群

安装HIVE

下载安装

6.2. 配置文件

启动

常见命令

测试

安装MySQL

更新yum源

安装

启动测试

常用命令

安装Zookeeper

下载安装

8.2. 配置文件

启动

启动脚本

常见命令

安装HBASE

下载安装

配置文件

启动

命令行

常见用法

API

安装Flume

下载安装

配置文件

问题总结

DataNode无法启动

脚本启动权限问题

友情链接更多精彩内容