使用MongoDB的MapReduce进行查询和数据组织

Date: 2016-03-09
Summary: 在实际应用中,用MongoDB做了数据库查询之后返回的数据量很大,想要做一些比较复杂的统计和聚合操作做花费的时间超过了数据库操作耗时,尝试用MongoDB中的MapReduce机制进行了实现,速度提升还是很明显的!

使用MongoDB的MapReduce进行查询和数据组织

MapReduce是MongoDB中最复杂的查询机制之一。它通过两个JavaScript函数实现查询:map和reduce。这两个函数完全由用户自定义,并且能够提供及其强大的灵活性!实际应用中遇到的问题无法直接使用MongoDB的聚合框架实现,才考虑到使用MapReduce。下面将通过一个简短的例子演示如何使用MapReduce。该例子的原型来自于实际的问题,由于数据的保密性,我采用MongoDB官方对外发布的Zip Code数据集进行举例。

问题描述

目前的流程是这样的,首先按照一定的条件对collection进行查询,在查询结果中想要统计每一个key的loc属性(地理经纬度),并把所有的loc加入到一个数组,然后返回。刚开始统计的部分是在程序中进行的,由于数据量很大,查询的部分并不慢,主要是统计的部分形成了瓶颈。想到用MongoDB的聚合框架来解决问题,研究了一下,发现功能有限。看到了MapReduce非常灵活,感觉肯定可以解决,所以决定尝试一下,最后比较一下性能有多大的提升。

数据集导入

首先下载zips.json文件,放到当前目录下,然后使用mongoimport工具进行导入:

$mongoimport -d test -c zipcodes < zips.json

然后看下是否已经导入成功了:

use test
db.zipcodes.find()

有数据则导入成功!

{ "_id" : "01002", "city" : "CUSHMAN", "loc" : [ -72.51565, 42.377017 ], "pop" : 36963, "state" : "MA" }
{ "_id" : "01001", "city" : "AGAWAM", "loc" : [ -72.622739, 42.070206 ], "pop" : 15338, "state" : "MA" }
{ "_id" : "01005", "city" : "BARRE", "loc" : [ -72.108354, 42.409698 ], "pop" : 4546, "state" : "MA" }
{ "_id" : "01007", "city" : "BELCHERTOWN", "loc" : [ -72.410953, 42.275103 ], "pop" : 10579, "state" : "MA" }
{ "_id" : "01008", "city" : "BLANDFORD", "loc" : [ -72.936114, 42.182949 ], "pop" : 1240, "state" : "MA" }

下面我们就以state为key,来返回collection中全部loc的数组。

解决方法1:使用传递字符串的方法

根据参考3页面的问题回复来看,"Currently, the return value from a reduce function cannot be an array (it's typically an object or a number)." ****目前reduce函数的返回值还不能是数组!可以是数字和对象!如果直接返回数组会报错:"reduce -> multiple not supported yet",参考3中介绍了这个错误的解决方法。下面的一位大神提出了一个最简单的方法:把返回值转换成一个字符串返回不就行了。js中的字符串也是对象啊。这样的话,在外面再对字符串进行解析,也是一个不错的方法。那么就先来试一下:

//solution 1 使用传字符串的方法
var map = function() {
    emit(this.state, this.loc);
};

var reduce = function(key, values) {
    //print(values);
    return values.toString();
};

db.zipcodes.mapReduce(
    map,
    reduce,
    {
        query:{state:"NY"},
        out:{inline:1}
    }
)

在map函数中把state作为key,loc作为value发送到reduce函数。reduce函数中把接收到的每个key的汇总值直接转成字符串返回。在控制台中的运行结果如下:

{
"results" : [
    {
        "_id" : "NY",
        "value" : "-72.017834,41.263934,-73.996705,40.74838,-73.987681,40.715231, 
        .......
        -73.981328,40.737476,-73.99963,40.740225,-78.242958,43.332563"
    }
],
"timeMillis" : 121,
"counts" : {
    "input" : 1595,
    "emit" : 1595,
    "reduce" : 16,
    "output" : 1
},
"ok" : 1
}

数据太长了只能省略了中间的部分,从结果来看这种方法是可行的!

对了,代码中注释掉的print那一行是用来调试mapreduce的输出信息的,它会把结果输出到mongodb的日志文件中,打开日志文件就能看到,这样很方便,更容易理解这个过程。具体可以参考4,5,6进行了解和学习。

解决方法2:使用传递对象的方法

下面使用传递对象的方法来返回我们需要的数组,简单起见,我们先把每个state的pop装到一个数组里。具体实现代码如下:

//solution 2 : population example 传对象的方法传pop数组
var map = function() {
    emit(this.state, {p:[this.pop]});
};

var reduce = function(key, values) {
    var ret = {p:[]};
    for(var i = 0; i < values.length; i++){
        ret.p.push(values[i].p[0]);
    }
    return ret;
};

db.zipcodes.mapReduce(
    map,
    reduce,
    {
        query:{state:"NY"},
        out:"NYpop"
    }
)

这里的有几点是需要注意的,最重要的一点就是:The value from the map function needs to have the same shape as the return from reduce. 所以map函数中value是什么样,reduce函数中的返回值就要是什么样!不然会有很多问题,返回是null或者undefined都是很常见的。还有一点就是输出模式out和上面的例子不一样,这种是输出成了一个collection,上面是直接输出在控制台了,自己体会一下就好。输出结果如下:

{
    "result" : "NYpop",
    "timeMillis" : 178,
    "counts" : {
        "input" : 1595,
        "emit" : 1595,
        "reduce" : 16,
        "output" : 1
    },
    "ok" : 1
}

好的,下面实现最后一步,就要达到目标了。我们要把每个state的loc装到一个数组里,loc本身由经纬度两个字段组成,也是一个数组,也就是说,返回的结果是数组的数组。具体mapreduce函数如下:

//solution 3 统计loc
var map = function() {
    emit(this.state, {locs:[this.loc]});
};

var reduce = function(key, values) {
    var ret = {locs:[]}
    for(var i = 0; i < values.length; i++){
        ret.locs.push(values[i].locs[0]);
    }
    return ret;    
};

db.zipcodes.mapReduce(
    map,
    reduce,
    {
        query:{state:"NY"},
        out:{inline:1}
    }
)

输出结果如下:

{
    "results" : [
        {
            "_id" : "NEW YORK",
            "value" : {
                "locs" : [
                    [
                        -73.996705,
                        40.74838
                    ],
                    [
                        -73.987681,
                        40.715231
                    ],
                    ......
                    [
                        -74.016323,
                        40.710537
                    ]
                ]
            }
        }
    ],
    "timeMillis" : 77,
    "counts" : {
        "input" : 40,
        "emit" : 40,
        "reduce" : 1,
        "output" : 1
    },
    "ok" : 1
}

整个流程走通还是不太容易的,遇到了很多问题,其中一个就是嵌套数组的问题,参考7中解释了嵌套数组的形成原因,并给出了解决方法,已经加到代码中。

参考

  1. MongoDB官方文档https://docs.mongodb.org/manual/core/map-reduce/ 解释很详细,图片到位,简单易懂
  2. http://thejackalofjavascript.com/mapreduce-in-mongodb/ MapReduce使用的例子
  3. http://stackoverflow.com/questions/8175015/mongodb-mapreduce-reduce-multiple-not-supported-yethttp://stackoverflow.com/questions/8175015/mongodb-mapreduce-reduce-multiple-not-supported-yet
  4. http://stackoverflow.com/questions/13963483/how-to-get-print-output-for-debugging-map-reduce-in-mongoid
  5. http://www.cnblogs.com/yuechaotian/archive/2013/02/26/2933455.html
  6. http://stackoverflow.com/questions/7527126/mongodb-how-to-debug-map-reduce-on-mongodb-shell
  7. http://stackoverflow.com/questions/8099991/rejoining-split-mapreduce-arrays-in-mongohttp://stackoverflow.com/questions/8099991/rejoining-split-mapreduce-arrays-in-mongo
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容