Hadoop 初探

感觉Udacity上的hadoop课程挺棒,还是免费的。于是拿来听听看。
说到大数据,被提到的最重要的概念就是3v了。volume、variety、velocity。都是字面意思。其中variety指的是数据会有很多种类,格式也各不相同。用大数据我们可以不管它的格式或者内容,直接进行存储,有用的时候拿出来用就是。比如与客服的通话记录,我们可以是以text形式存储,同时也可以直接把mp3格式的语音记录也存储起来。万一以后机器能对这些完全理解透彻了呢。

hadoop 生态系统

屏幕快照 2017-11-22 下午2.08.32.png

课程1的第18节里对hadoop生态系统做了简单介绍。从图中可知,Pig和Hive是建立在mapreduce操作上的,用户写的Pig或Hive命令会被转化成mapreduce代码被执行。
而其他模块则没有出现在mapreduce的上面,比如Hbase、sqoop等。接下来要对这些慢慢了解一些。
其中CDH是cloudera这个公司做的一个继承了hadoop生态系统里很多工具的集,可以省去很多配置安装的麻烦。

HDFS(hadoop distributed file system)

数据在hadoop上被分成一个个块来存储。比如一个150M的数据,会被分成64、64、22的三个块,分别存储到三个DataNode上。还要有一个NameNode用来记录这些块分别是存储到哪些机器的,就是metadata。
为了使数据有冗余去应对节点数据遭损毁,一个数据块会被分别存储在三个data节点上,而namenode则会有两台,一个是主要namenode,还有一个是standby节点。

hadoop 命令

和linux的命令都差不多,只是都以 hadoop fs - 开头(如果没记错的话)

mapreduce

课程中对mapreduce举了一个例子。假设现在有一个很大的账本,上面记录着各地区门店的每一个订单以及订单金额。如何获得各地区的销售额?传统的方式的话可能是会使用一个hashtable类似的数据结构,去分别计算各个地区总销售额。这样做可能会吃掉计算机全部内存,又很慢。
而mapreduce是个分布式的方式。


屏幕快照 2017-11-22 下午3.24.55.png

其中mapper可以被看作是专门做分类的人。这些人每人分到账本中的一部分,并对其中的订单按地区进行分类。
reducer则把mapper分好类的订单拿来,把同一个地区的放到一起,构成一个个更大的某地区的订单集合。最后对这些做简单的求和操作。
Mappers are little programs each deal with small amount of data, and work in parallel.
We call that output intermediate records, hadoop deals with all data in the form of key and value.
Once the mapper finished, a phase of called shuffle and sort take place. The shuffle is the movement that of the intermediate records from the Mappers to the Reducers. The Sort is the fact that the Reducers will organize these sets of records into sorted order.

Task tracker

一个mapreduce任务运行起来的时候这个任务会被交给 JobTracker,jobTracker 会把任务分成多个mapper和reducer,这些mapper、reducer运行在其他节点上。真正的map 和 reduce 这些任务是由一个daemon叫做trasktracker 负责的,这些tracker用来在每个数据块上做map操作。如果某个数据块所处的三个节点的tasktracker都被占用了,则由其他的一个节点用stream的方式得到结果,也就是intermediate result,用来shuffle and sort的数据。map操作的输入是整个要处理的数据的一部分,被称作input split,默认的一个input split是一个64M块。

执行任务命令

hs {mapper script} {reducer script} {input_file} {output directory}

其中 output directory 必须是一个还不存在的目录,如果已存在该目录,hadoop会拒绝执行。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 前言 近几年,大数据,云计算,机器学习成为了非常热门的话题,这些技术运用在了很多的领域,也是在未来很有发展前景的技...
    Kevin_ZGJ阅读 896评论 0 5
  • 先思考问题 我们处在一个大数据的时代已经是不争的事实,这主要表现在数据源多且大,如互联网数据,人们也认识到数据里往...
    墙角儿的花阅读 7,359评论 0 9
  • 摘自:http://staticor.io/post/hadoop/2016-01-23hadoop-defini...
    wangliang938阅读 590评论 0 1
  • Hadoop部署方式 本地模式 伪分布模式(在一台机器中模拟,让所有进程在一台机器上运行) 集群模式 服务器只是一...
    陈半仙儿阅读 1,609评论 0 9
  • 不知不觉我爱上了他想方法去表达勇气你在哪那么多路人甲阻挡不了我对你爱想法抛开那些最浪漫的话我只想为你把所有冰冷融化...
    绿茶大美阅读 234评论 0 1