大数据学习- Hadoop的快速入门

大数据不得不提到最有用的利器Hadoop，本文最快的方式让你上手Hadoop，hadoop快速入门，并且有一个感性的认识，也可以当做步骤的快速索引，本文解决以下问题：

理解Hadoop是什么
Hadoop用于做什么以及怎么用
Hadoop使用整体的一个基本流程和结构

理解Hadoop是什么

HADOOP是apache旗下的一套开源软件平台
HADOOP提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理
HADOOP的核心组件有
- HDFS（分布式文件系统）
- YARN（运算资源调度系统）
- MAPREDUCE（分布式运算编程框架）
- 广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈
为什么会有Hadoop呢？
1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
2. 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
  - 分布式文件系统（GFS），可用于处理海量网页的存储
  - 分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题。
3. Nutch的开发人员完成了相应的开源实现HDFS 和MAPREDUCE，并从Nutch中剥离成为独立项目HADOOP，到2008年1月，HADOOP成为Apache顶级项目，迎来了它的快速发展期。

Hadoop用于做什么以及怎么用

Hadoop用于做什么

云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS（软件即服务）等业务模式，把强大的计算能力提供给终端用户。
现阶段，云计算的两大底层支撑技术为“虚拟化”和“大数据技术”
而HADOOP则是云计算的PaaS层的解决方案之一，并不等同于PaaS，更不等同于云计算本身。

Hadoop怎么用

上面提过其实HADOOP是一个很大的生态圈，既然是生态圈就有很多重要的组件：
- HDFS：分布式文件系统
- MAPREDUCE：分布式运算程序开发框架
- HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具
- HBASE：基于HADOOP的分布式海量数据库
- ZOOKEEPER：分布式协调服务基础组件
- Mahout：基于mapreduce/spark/flink等分布式运算框架的机器学习算法库
- Oozie：工作流调度框架
- Sqoop：数据导入导出工具
- Flume：日志数据采集框架
  （上述的使用方法以后会慢慢补上去，挖个坑）
Hadoop的集群搭建

说道Hadoop的集群搭建，就是将所需要的核心组件搭建起来，Hadoop集群包含两个重要集群：HDFS集群和YARN集群
- HDFS集群：负责海量数据的存储，集群中的角色主要有NameNode / DataNode
- YARN集群：负责海量数据运算时的资源调度，集群中的角色主要有 ResourceManager /NodeManager
注意：那mapreduce是什么呢？它其实是一个应用程序开发包，主要负责业务逻辑开发。

本集群搭建案例，以5节点为例进行搭建，角色分配如下：

 > hdp-node-01    NameNode SecondaryNameNode(HDFS)
 >
 > hdp-node-02    ResourceManager (YARN)
 >
 > hdp-node-03    DataNode    NodeManager   (HDFS)
 >
 > hdp-node-04    DataNode    NodeManager   (HDFS)
 >
 > hdp-node-05    DataNode    NodeManage    r(HDFS)

部署图如下：

集群搭建案例

因为模拟可以使用模拟器，模拟五台linux服务器，细节忽略。
Hadoop 安装部署，保证每台的linux均有Hadoop的安装包：

规划安装目录: /home/hadoop/apps/hadoop-2.6.1

修改基本配置Haddop文件: $HADOOP_HOME/etc/hadoop/
相应的Hadoop最简配置如下:

Hadoop-env.sh

# The java implementation to use.
export JAVA_HOME=/home/hadoop/apps/jdk1.8

core-site.xml

<configuration>
 <property>
     <name>fs.defaultFS</name>
     <value>hdfs://hdp-node-01:9000</value>
 </property>
 <property>
     <name>hadoop.tmp.dir</name>
     <value>/home/HADOOP/apps/hadoop-2.6.1/tmp</value>
 </property>
</configuration>

hdfs-site.xml

<configuration>
 <property>
     <name>dfs.namenode.name.dir</name>
     <value>/home/hadoop/data/name</value>
 </property>
 <property>
     <name>dfs.datanode.data.dir</name>
     <value>/home/hadoop/data/data</value>
 </property>

 <property>
     <name>dfs.replication</name>
     <value>3</value>
 </property>

 <property>
     <name>dfs.secondary.http.address</name>
     <value>hdp-node-01:50090</value>
 </property>
</configuration>

mapred-site.xml

<configuration>
 <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
 </property>
</configuration>

yarn-site.xml

<configuration>
 <property>
     <name>yarn.resourcemanager.hostname</name>
     <value>hadoop01</value>
 </property>

 <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
 </property>
</configuration>

注意:五台linux配置应该相同，这里使用的hadoop2.6.1根据自己用的来修改

启动集群

在终端中执行：

#初始化HDFS
bin/hadoop  namenode  -format

#启动HDFS
bin/start-dfs.sh

#启动YARN
bin/start-yarn.sh

测试

1、上传文件到HDFS

从本地上传一个文本文件到hdfs的/wordcount/input目录下

终端代码：

[HADOOP@hdp-node-01 ~]$ HADOOP fs -mkdir -p /wordcount/input
[HADOOP@hdp-node-01 ~]$ HADOOP fs -put /home/HADOOP/somewords.txt  /wordcount/input

2、运行一个mapreduce程序

在HADOOP安装目录下，运行一个示例mr程序:

cd $HADOOP_HOME/share/hadoop/mapreduce/
hadoop jar mapredcue-example-2.6.1.jar wordcount /wordcount/input  /wordcount/output

注意：example是hadoop自带的程序用于测试是否搭建成功

Hadoop的数据处理流程

典型的BI系统流程图如下：

BI系统流程图

如图所示，虽然所用技术也许会有不同，但是流程基本如图所示：

数据采集：定制开发采集程序，或使用开源框架FLUME
数据预处理：定制开发mapreduce程序运行于hadoop集群
数据仓库技术：基于hadoop之上的Hive
数据导出：基于hadoop的sqoop数据导入导出工具
数据可视化：定制开发web程序或使用kettle等产品
整个过程的流程调度：hadoop生态圈中的oozie工具或其他类似开源产品

大数据学习- Hadoop的快速入门