回顾——Hadoop简介

(硕士读了一年多,除了论文就是论文,甚是枯燥,过些日子打算去找工作,所以借助此平台给自己一个复习的过程并把自己复习过程中做的笔记分享给大家。此回顾首先从Hadoop开始,接下来有可能会加入Spark算法机器学习,设计模式等。)

复习——HADOOP简介

一、大数据的基本特性:4V

1、Volume: M->G->T->P->E->Z->(容量)

2、Varity:文本、图片、视频音频…

3、Veracity:精确

4、Velocity:速度要求快、数据输入输出的速度

二、什么是Hadoop

1、Hadoop是一种开源的可靠的,可扩展的,大数据分布式计算框架。支持从一台到数以千台的机器,并且在每一台上面都支持本地计算和存储。支持很多操作系统版本,但是一般企业都会选择Linux,很少有企业会选择windows来做大数据。所以学习hadoop当然要掌握linux的相关技能。

2、包括

HDFS:Hadoop的分布式文件系统

MapReduce:Hadoop的离线并行计算模型

YARN:一种任务调度和资源管理框架(2.0版本以后)

3、Google三篇论文

Hadoop的设计思想来源于谷歌的三大论文,GFS、MapReduce、BigTable。分别对应hadoop的HDFS、MapReduce、Hbase

三、分布式文件系统

HDFS中主要包含两个节点,namenode和datanode。在2.0版本以前存在secondarynamenode,但是在使用zookeeper协助HDFS做HA之后就不再使用了。

Namenode:存储文件的元数据信息(fsimage)和对文件操作信息(edits)

Datanode:数据存储;文件存储以块的形式,默认128MB,文件不足128MB不会占满整个块;默认情况存储副本数为三个,分别为机器本、同机架、不同机架;定期向namenode发送报告。

四、YARN架构

YARN是一种资源管理与应用调度框架,在hadoop2.0以后被提出的,大数据的许多框架都能和其集成。

Resourcemanager:负责整个系统的资源管理,资源分配,协调

Nodemanager:负责单个任务管理,任务的本地运行。(通常每个datanode配备一个nodemanager以保证任务本地执行)

Hadoop1与Hadoop2架构对比

五、MapReduce

MapReduce是一种大数据并行计算模型,主要包括Map端、shuffle过程和Reduce端。其中map和reduce的输入输出都是以键值对的方式进行的。shuffle则包括分区,分组,排序等过程。最为经典的就是wordcount程序,号称大数据的hello world。

由于mapreduce只能处理离线数据,并且速度较为缓慢,所以现在此部分渐渐被spark所替换。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 先思考问题 我们处在一个大数据的时代已经是不争的事实,这主要表现在数据源多且大,如互联网数据,人们也认识到数据里往...
    墙角儿的花阅读 12,171评论 0 9
  • 简述 hadoop 集群一共有4种部署模式,详见《hadoop 生态圈介绍》。完全分布式模式将hadoop部署在至...
    mtide阅读 9,642评论 0 10
  • 简述 hadoop 集群一共有4种部署模式,详见《hadoop 生态圈介绍》。HA联邦模式解决了单纯HA模式的性能...
    mtide阅读 14,552评论 8 20
  • 睡醒后最先看到蓝天白云 早餐前,泳池玩耍 早餐后各处走走 出发去攀牙湾,路上黏着同事男朋友,最喜欢帅哥 上皮划艇,...
    景景相依阅读 1,342评论 0 1
  • 概述: 能够截取自动变量的匿名函数 指向函数的指针 结构体 oc对象 使用: - 声明 - 定义(变量赋值) - ...
    忽然之间_1988丶阅读 1,373评论 0 1

友情链接更多精彩内容