大数据
人工智能 = 机器学习 + 大数据 ---李开复
大数据技术
- Hadop
几个简单的概念
云
物联网
区块
-
分布式计算
- p2p-迅雷
大数据的特点
V-VOLUME 海量
V-VELOCITY 时效性
V-VARIETY 多样性 数据的来源很多,形式很多样,视频音频图片。
大量的数据优于好的算法
存在的问题
“三无数据”
数据量太大,对储存和算法要求极高
应用
数据收集与储存
数据预处理
特征工程
构建模型
训练
预测
其他
Hadoop
Hadoop是Apache软件基金会旗下一个开源的分布式计算平台
以HDFS(Hadoop Distributed File System)和MapReduce
允许用户在不了解计算机底层的情况下,构建分布式计算系统
Hadoop历史
Hadoop生态圈
MapReduce(离线计算)
Spark(内存计算)-实时计算
YARN(分布式计算框架)- 资源的分发
配置Hadoop
-
下载: http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5-src.tar.gz, 通过镜像下载并解压,设置环境变量
新建变量 HADOOP_HOME = D:\Programs\Java\Hadoop\hadoop-2.9.2
新建环境变量 %HADOOP_HOME%\bin; %HADOOP_HOME%\sbin
如果没有新建JAVA_HOME,新建一个不然需要改{HADOOP_HOME}/etc/hadoop/hadoop-env.sh中的Java路径
下载https://github.com/steveloughran/winutils windows对应的bin进行覆盖(很重要)
配置core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
- 修改hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/hadoop/data/dfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/hadoop/data/dfs/datanode</value>
</property>
</configuration>
- 修改mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- 修改yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
启动Hadoop
1)进入到hadoop–>bin目录下,shift+右键 打开命令行
2)hadoop namenode -format //格式化hdfs
3)cd..\sbin
4)start-dfs.cmd //先启动dfs
start-yarn.cmd //再启动yarn
•网页客户端查看集群状态
1)http://localhost:50070查看HDFS状态
2)http://localhost:8088查看yarn状态
成功界面