MongoDB mapreduce 使用

MapReduce介绍

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 
当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

MongoDB 中的MapReduce 使用JavaScript来作为查询语言,因此能表达任意的逻辑,
但是它运行非常慢,不应该用在实时的数据分析中 。

MongoDB MapReduce语法

db.runCommand("mapreduce":“集合名称”,"map":Map函数名称,"reduce":Reduce函数名称,"out":"集合名称")
  • 1:Map函数使用emit函数来返回要处理的值 。this 表示整个文档

  • 2:reduce函数需要处理Map阶段或者是前一个reduce的数据,因此reduce返回的文档必须要能作为reduce的第二个参数的一个元素,
    </br>
    问题一:计算每个键出现的次数

    db.userdatas.find()
{ "_id" : ObjectId("59789a56bc629e73c4f09e1c"), "name" : "wang wu", "age" : 45 }
{ "_id" : ObjectId("59789a74bc629e73c4f09e1e"), "name" : "wang wu", "age" : 8 }
{ "_id" : ObjectId("59789ac0bc629e73c4f09e20"), "name" : "wang wu", "age" : 33 }
{ "_id" : ObjectId("597f357a09c84cf58880e40e"), "name" : "u1", "age" : 37 }
{ "_id" : ObjectId("597f357a09c84cf58880e40f"), "name" : "u1", "age" : 37 }
{ "_id" : ObjectId("597f357a09c84cf58880e410"), "name" : "u5", "age" : 78 }
{ "_id" : ObjectId("597f357a09c84cf58880e412"), "name" : "u3", "age" : 32 }
{ "_id" : ObjectId("597f357a09c84cf58880e411"), "name" : "u4", "age" : 30, "score" : [ 7, 4, 2, 0 ] }
{ "_id" : ObjectId("597fcc0f411f2b2fd30d0b3f"), "age" : 20, "score" : [ 7, 4, 2, 0, 10, 9, 8, 7 ], "name" : "lihao" }
{ "_id" : ObjectId("597f357a09c84cf58880e413"), "name" : "u2", "age" : 33, "wendang" : { "yw" : 80, "xw" : 90 } }
{ "_id" : ObjectId("5983f5c88eec53fbcd56a7ca"), "date" : ISODate("2017-08-04T04:19:20.693Z") }

    var map = function(){
                for(var key in this){
                    emit(key,{count:1});
                } 
            }

    var reduce = function(key,emits){
                    var total = 0;
                    for(var i in emits){
                        total += emits[i].count;
                    }
                    return {"count":total};
                };

    db.runCommand({"mapreduce":"userdatas","map":map,"reduce":reduce,"out":"result"});  
    {
    "result" : "result",
    "timeMillis" : 42,
    "counts" : {
        "input" : 11,
        "emit" : 11,
        "reduce" : 2,
        "output" : 9
    },
    "ok" : 1
    }


db.result.find()
{ "_id" : "_id", "value" : { "count" : 11 } }
{ "_id" : "age", "value" : { "count" : 10 } }
{ "_id" : "date", "value" : { "count" : 1 } }
{ "_id" : "name", "value" : { "count" : 10 } }
{ "_id" : "score", "value" : { "count" : 2 } }
{ "_id" : "wendang", "value" : { "count" : 1 } }

MapReduce 执行流程图

MongoDB MapReduce 可选参数

  • 1:finalize:function :可以将reduce的结果发送到finalize,这是整个处理的最后一步

  • 2:keeptemp:boolean :是否在连接关闭的时候,保存临时结果集合

  • 3:query:document :在发送给map前对文档进行过滤

  • 4:sort:document :在发送给map前对文档进行排序

  • 5:limit:integer :发往map函数的文档数量上限

  • 6:scope:document :可以在javascript中使用的变量

  • 7:verbose:boolean :是否记录详细的服务器日志

问题一 : 计算出文档中含有age字段的总和

var map = function() {
    emit("age",this.age)
}

var reduce = function(key,emits) {
    var total = 0;
    for(var i in emits) {
        total += emits[i];
    }
    return total
}

var query = {"age":{"$exists":1}}

// var sort = {"age":1};
// var finalize = function(key,value){
//    return {"mykey":key,"myV":value}; 
// };


db.runCommand({"mapreduce":"userdatas","map":map,"reduce":reduce,"out":"result","query":query})
{
    "result" : "result",
    "timeMillis" : 17,
    "counts" : {
        "input" : 10,
        "emit" : 10,
        "reduce" : 1,
        "output" : 1
    },
    "ok" : 1
}


db.result.find()
{ "_id" : "age", "value" : 353 }


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容