Big Data笔记:Hadoop - 初识MapReduce

Map-Reduce是一种可扩展的编程模型,可简化数据的分布式处理。 Map-Reduce包括三个主要步骤:Map,shuffle,Reduce。

Map-Reduce工作的一个简单解释是:它将一个大型任务“委派”给一群人,然后将每个人的努力结果相结合,以产生最终结果。

让我们举个例子来说明一下。你刚刚在你的办公室听到这个好消息,并为所有的同事们举行派对!你决定煮面食吃饭。你的四个朋友,喜欢烹饪,也愿意加入你。准备面食的任务涉及剁蔬菜,烹饪和装盘。

我们来剁蔬菜,这里的生蔬菜就像输入数据,你的朋友相当于计算节点(Compute nodes),而最终切好的蔬菜类似于结果。每个朋友都分配了洋葱,西红柿和辣椒,以剁碎和称重。

你也想知道你在厨房里有多少蔬菜类型。您也想在这种计算过程中切断这些蔬菜。最后,同一类的蔬菜应该在一个大碗里,标签上显示其重量等信息。

Map

你的朋友使用他们的“处理能力(compute power)”来切蔬菜并称重。 他们需要确保不混合不同类型的蔬菜。 所以每个朋友都会生成一个<key,value>映射。每一个映射对应一小碗蔬菜。

Friend X:
<tomatoes, 5 lbs>
<onions, 10 lbs>
<garlic, 2 lbs>

Friend Y:
<onions, 22 lbs>
<green peppers, 5 lbs>

Shuffle

这个阶段也叫做分组。 在这里,你想按照类型蔬菜给蔬菜分组。 您将厨房的不同部分分配给每种蔬菜类型,您的朋友应该对碗进行分组,以便将产品放在一起:

North End of Kitchen:
<tomatoes, 5 lbs>
<tomatoes, 11 lbs>

West End of Kitchen:
<onions, 10 lbs>
<onions, 22 lbs>
<onions, 1.4 lbs>

East End of Kitchen:
<green peppers, 3 lbs>
<green peppers, 10 lbs>

你被朋友通过Mapping and Grouping完成的工作给震撼了!厨房看起来更加有组织。 这个任务的最后阶段是衡量你实际拥有的每种蔬菜的数量。 这让我们进入了Reduce阶段。

Reduce

在这个阶段,你要求你的朋友收集相同类型的物品,把它们放在一个大碗中,并用大量的碗重量标注这个大碗。 你的朋友立即开始“减少”小碗。 最后,你就有了一堆标注良好的大碗。

<tomatoes, 16 lbs>
<green peppers, 13lbs>
<onions, 33.4 lbs>

总结

您的朋友(“计算节点”)刚刚执行了Map-Reduce任务,以帮助您开始烹饪。 由于您正在协调整个练习,所以您是此Map-Reduce任务的“Master”节点。 你的每个朋友都在不同的时间担任Mappers, Groupers ,Reducers的角色。 此示例演示了MapReduce的强大功能。

由Yanring翻译自http://words.sdsc.edu/words-data-science/mapreduce

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容

  • 目的这篇教程从用户的角度出发,全面地介绍了Hadoop Map/Reduce框架的各个方面。先决条件请先确认Had...
    SeanC52111阅读 1,711评论 0 1
  • sina mapreduce是一种模式,hadoop是一种框架,是一个实现了mapreduce模式的开源的分布式并...
    橙小汁阅读 1,665评论 0 5
  • MapReduce框架结构## MapReduce是一个用于大规模数据处理的分布式计算模型MapReduce模型主...
    Bloo_m阅读 3,732评论 0 4
  • MapReduce是一个数据处理的编程模型。这个模型很简单,但也不是简单到不能够支持一些有用的语言。Hadoop能...
    单行线的旋律阅读 1,513评论 0 2
  • 每年的高考,都会产生两大亮点:一是高考状元,这个年年有,没什么好讲的。 一个就是五花八门的作弊手段,这种作弊手段道...
    哈真慈阅读 481评论 1 1