Hadoop介绍与安装

大数据

人工智能 = 机器学习 + 大数据 ---李开复

大数据技术

Hadop

几个简单的概念

云
物联网
区块
分布式计算
- p2p-迅雷

大数据的特点

V-VOLUME 海量
V-VELOCITY 时效性
V-VARIETY 多样性数据的来源很多，形式很多样，视频音频图片。

大量的数据优于好的算法

存在的问题

“三无数据”
数据量太大，对储存和算法要求极高

应用

数据收集与储存
数据预处理
特征工程
构建模型
训练
预测
其他

Hadoop

Hadoop是Apache软件基金会旗下一个开源的分布式计算平台
以HDFS(Hadoop Distributed File System)和MapReduce
允许用户在不了解计算机底层的情况下，构建分布式计算系统

Hadoop历史

Hadoop生态圈

MapReduce(离线计算)
Spark(内存计算)-实时计算
YARN(分布式计算框架)- 资源的分发

配置Hadoop

下载： http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5-src.tar.gz，通过镜像下载并解压，设置环境变量
- 新建变量 HADOOP_HOME = D:\Programs\Java\Hadoop\hadoop-2.9.2
- 新建环境变量 %HADOOP_HOME%\bin； %HADOOP_HOME%\sbin
- 如果没有新建JAVA_HOME，新建一个不然需要改{HADOOP_HOME}/etc/hadoop/hadoop-env.sh中的Java路径
- 下载https://github.com/steveloughran/winutils windows对应的bin进行覆盖(很重要)
配置core-site.xml

<configuration>
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://localhost:9000</value>
 </property>
</configuration>

修改hdfs-site.xml

<configuration>
 <property>
 <name>dfs.replication</name>
 <value>1</value>
 </property>
 <property>
 <name>dfs.namenode.name.dir</name>
 <value>file:/hadoop/data/dfs/namenode</value>
 </property>
 <property>
 <name>dfs.datanode.data.dir</name>
 <value>file:/hadoop/data/dfs/datanode</value>
 </property>
</configuration>

修改mapred-site.xml

<configuration>
 <property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
 </property>
</configuration>

修改yarn-site.xml

<configuration>
 <property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
 </property>
 <property>
 <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
 <value>org.apache.hadoop.mapred.ShuffleHandler</value>
 </property>
</configuration>

启动Hadoop

1）进入到hadoop–>bin目录下,shift+右键打开命令行

2）hadoop namenode -format //格式化hdfs

3）cd..\sbin

4）start-dfs.cmd //先启动dfs

start-yarn.cmd //再启动yarn

•网页客户端查看集群状态

1）http://localhost:50070查看HDFS状态

2）http://localhost:8088查看yarn状态
成功界面

最后编辑于：2018.11.29 23:58:27