(硕士读了一年多,除了论文就是论文,甚是枯燥,过些日子打算去找工作,所以借助此平台给自己一个复习的过程并把自己复习过程中做的笔记分享给大家。此回顾首先从Hadoop开始,接下来有可能会加入Spark,算法,机器学习,设计模式等。)
复习——HADOOP简介
一、大数据的基本特性:4V
1、Volume: M->G->T->P->E->Z->(容量)
2、Varity:文本、图片、视频音频…
3、Veracity:精确
4、Velocity:速度要求快、数据输入输出的速度
二、什么是Hadoop
1、Hadoop是一种开源的可靠的,可扩展的,大数据分布式计算框架。支持从一台到数以千台的机器,并且在每一台上面都支持本地计算和存储。支持很多操作系统版本,但是一般企业都会选择Linux,很少有企业会选择windows来做大数据。所以学习hadoop当然要掌握linux的相关技能。
2、包括
HDFS:Hadoop的分布式文件系统
MapReduce:Hadoop的离线并行计算模型
YARN:一种任务调度和资源管理框架(2.0版本以后)
3、Google三篇论文
Hadoop的设计思想来源于谷歌的三大论文,GFS、MapReduce、BigTable。分别对应hadoop的HDFS、MapReduce、Hbase。
三、分布式文件系统
HDFS中主要包含两个节点,namenode和datanode。在2.0版本以前存在secondarynamenode,但是在使用zookeeper协助HDFS做HA之后就不再使用了。
Namenode:存储文件的元数据信息(fsimage)和对文件操作信息(edits)
Datanode:数据存储;文件存储以块的形式,默认128MB,文件不足128MB不会占满整个块;默认情况存储副本数为三个,分别为机器本、同机架、不同机架;定期向namenode发送报告。
四、YARN架构
YARN是一种资源管理与应用调度框架,在hadoop2.0以后被提出的,大数据的许多框架都能和其集成。
Resourcemanager:负责整个系统的资源管理,资源分配,协调
Nodemanager:负责单个任务管理,任务的本地运行。(通常每个datanode配备一个nodemanager以保证任务本地执行)
五、MapReduce
MapReduce是一种大数据并行计算模型,主要包括Map端、shuffle过程和Reduce端。其中map和reduce的输入输出都是以键值对的方式进行的。shuffle则包括分区,分组,排序等过程。最为经典的就是wordcount程序,号称大数据的hello world。
由于mapreduce只能处理离线数据,并且速度较为缓慢,所以现在此部分渐渐被spark所替换。