mongoDB的查询测试

做的事情:

分析mongodb的查询性能,引入冗余的字段来加快查询的效率是否可行?同时对比了冗余字段和索引的查询能力。

我们从下面几个维度来分析

        1. 存储空间

        2. 时间

怎么做:

        1. 生成数据

        2. 分两类来考察

                a. 冗余一定的数据来加快数据本身的子父级关系

                b. 建立索引的方式

        3. 统计数据库的空间成本,查询花费的时间成本

举例:

1. 数据结构如下:

        {"id":1, "data":"adasdasd","parent":2}

        {"id":2, "data":"adasdasd","parent":null}

2. 数据结构如下:

        {"id":1 , "data":"asdasdasd","children":[2,3],"parent":null}

        {"id":2 , "data":"asdasdasd","children":[],"parent":2}

我们要查询的数据是:将一条数据的子数据都查询出来

第一种查询方式

        db.test1.find({"parent":2})

第二种查询方式:

        db.test2.find({"$in":{"_id":[2,3,4]}})

第三种查询方式和第一种一样,只是第三种多了一个parent_id 的索引



1. 首先我们先要创建数据库和数据

import  random

defget_id(db):

        key = db.seq.find_and_modify(

                query={'name':'mongo_test'},

                update={'$inc': {'seq':1}}

        )

        if notkey:

                db.seq.insert({"name":"mongo_test","seq":1})

                return 1

        returnkey['seq']


def init_data(client):

        """ 构造数据 """

        db1 = client["mongo_test1"]

        db2 = client["mongo_test2"]

        for i in xrange(100000):

                key1 = get_id(db1)

                parent_id = None

                if random.random() > 0.2:

                        parent_id = random.randint(1, i + 1)

                data = {"_id": key1, "data": "And loved your beauty with love false or true {0}".format(i),"parent_id": parent_id}

                db1.mongo_test.insert(data)

                key2 = get_id(db2)

                data2 = {"_id": key2, "data": "And loved your beauty with love false or true {0}".format(i), "children_id": [],"parent_id": parent_id}

                db2.mongo_test.insert(data2)

                if parent_id:

                        parent = db2.mongo_test.find_one({"_id": parent_id})

                        if parent and parent.get("parent_id") is None:

                                children = parent.get("children_id", [])

                                children.append(key2)

                                db2.mongo_test.save(parent)

                if i % 10000 == 0:

                        print "{0}0 % ".format(i // 10000)

这个方法就是在创建数据,数据量在100000条。


2.  数据生成完了之后,我们需要到mongo客户端copy一个数据出来,命名为mong_test3,这个数据库和mong_test1数据库唯一的区别在于,我们会再mong_test3中添加一个parent_id 的索引

db.copyDatabase('mongo_test1', 'mongo_test3', '127.0.0.1');

use mongo_test3

db.mongo_test.ensureIndex( { 'patent_id' : 1 } )


3. 上两步完成之后就开始查询数据,并且计算查找时间

def test_db(client):

"""测试花费的时间"""

        db1 = client["mongo_test1"]

        import time

        start = time.time()

        parent = db1.mongo_test.find({"parent": None})

        for item in parent:

                children = db1.mongo_test.find({"parent_id": item.get("_id")})

        end = time.time()

        test_db1_time = end - start

        db2 = client["mongo_test2"]

        start = time.time()

        parent = db2.mongo_test.find({"parent": None})

        for item in parent:

                if item.get("children_id"):

                        children = db2.mongo_test.find({"_id": {"$in": item.get("children_id",[])}})

        end = time.time()

        test_db2_time = end - start

        db3 = client["mongo_test3"]

        start = time.time()

        parent = db3.mongo_test.find({"parent": None})

        for item in parent:

                children = db3.mongo_test.find({"parent_id": item.get("_id")})

        end = time.time()

        test_db3_time = end - start

        print "第一种方式花费时间:{0} \n" \

                "第二种方式花费时间:{1} \n" \

                "第三种方式花费时间(parent建立索引):{2}".format(test_db1_time, test_db2_time, test_db3_time)


4. 最后展示一张我查找的结果截图:


可以看出来,有索引的情况确认会比没有缩影的情况在查询时间上还一点,但是没有那么突出的效果。

而我冗余的children_id 数组却带来了4倍的查询速度的提升 ,可以说是效果非常的明显了。


5. 我们来查看一下他们空间大小:


查询后发现,他们的区别在这个10W的数据量下表现不出来。

6. 主函数:

if __name__ == '__main__':

        from pymongo import MongoClient

        client = MongoClient(host='127.0.0.1', port=27017)

        init_data(client)

        # test_db(client)

注意:

在我们执行添加数据操作的时候,会报两次错误,这是由于数据库数据引起的。不用在意,点击执行就好了,大概要点击三次,在第三次的时候就不会再报错了。

总结:

这是一个典型的用空间换时间的例子。

我们这里还没有去考虑建立索引带来了插入和删除的性能损耗的问题,只是单纯的做了一次查找的性能对比。

至此,在这个10W的数据量下的查询冗余字段完胜普通方法和索引。

完整的代码就是将上面的代码依次放入py文件中,就可以执行了。前提是本地机器上已经有了mongoDB数据库。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,637评论 18 139
  • 目录 查询操作 集合查询方法 find() 查询内嵌文档 查询操作符(内含 数组查询) "$gt" 、"$gte"...
    彩虹之梦阅读 1,015评论 0 1
  • Spring Boot 参考指南 介绍 转载自:https://www.gitbook.com/book/qbgb...
    毛宇鹏阅读 46,778评论 6 342
  • 1. MongoDB命令帮助系统 2. 基本命令及实例 一基本命令 二基本DDL和DML 三启动与终止 四安全管理...
    ZGKzm阅读 392评论 0 2
  • NoSql数据库优缺点 在优势方面主要体现在下面几点: 简单的扩展 快速的读写 低廉的成本 灵活的数据模型 在不足...
    dreamer_lk阅读 2,712评论 0 6