MongoDB技术分享

MongoDB技术分享

  1. MongoDB简介

1.1 基本介绍
MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库(nosql)之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。

https://db-engines.com/en/ranking

1.2 MongoDB与MySQL术语对比

MongoDB MySQL
database database
collection table
column field

1.3 MongoDB数据类型


MongoDB数据类型

1.4 适用场景

应用特征 Yes / No
应用不需要事务及复杂 join 支持 必须 Yes
新应用,需求会变,数据模型无法确定,想快速迭代开发
应用需要2000-3000以上的读写QPS(更高也可以)
应用需要TB甚至 PB 级别数据存储 ?
应用发展迅速,需要能快速水平扩展 ?
应用要求存储的数据不丢失 ?
应用需要99.999%高可用 ?
应用需要大量的地理位置查询、文本查询

如果上述有1个 Yes,可以考虑 MongoDB,2个及以上的 Yes,选择MongoDB绝不会后悔。

1.5 mongodb数据demo

MongoDB的每一条数据类似于JSON的BSON格式

{
    "_id" : ObjectId("59e3f69aec98545db2fbc3b7"),
    "broker_name" : "张盼盼",
    "volume_30days" : "30天成交1套",
    "property_fee" : "0.73至2.16元/平米/月",
    "house_count" : "1176户",
    "community_type" : "塔楼",
    "price" : "64495",
    "community_id" : "1111027375451",
    "image_urls" : [ 
        "https://image1.ljcdn.com/hdic-resblock/ad796c0a-07b6-4c2f-90ec-0f9dc507386a.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/0b993852-1794-46dc-a39b-67662f0e0e08.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/8d2ac32c-9a06-4da8-aa1c-d5a9f519abb8.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/230be09f-f12a-4930-aa5e-eaf4890d6709.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/4fd63cc5-46da-4c40-b5a3-d212aec2e2b8.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/ebc9a3cf-bd3b-40ee-ac69-b38d4b505fb9.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/99b19300-07a9-49de-8379-0c6e8ea6b8a1.jpg.710x400.jpg", 
        "https://image1.ljcdn.com/hdic-resblock/043132e8-0aa8-4cb3-8739-e0b39a6d70de.jpg.710x400.jpg"
    ],
    "zones" : "太平桥",
    "community_name" : "华源二里",
    "building_count" : "5栋",
    "broker_id" : "1000000020201316",
    "crawl_time" : ISODate("2017-10-16T08:00:26.759Z"),
    "address" : "(丰台太平桥)华源二里",
    "saling_count" : "4",
    "property_name" : "北京首科万业物业管理有限公司",
    "developer" : "北京华世房地产开发公司",
    "city" : "北京",
    "rent_count" : "0套正在出租",
    "district" : "丰台",
    "complete_time" : "2002年建成 ",
    "url" : "https://bj.lianjia.com/xiaoqu/1111027375451/",
    "longitude" : "116.32284",
    "latitude" : "39.882471"
}

1.6 谈谈mongodb中的_id

_id 是mongodb自动生成12个字节24位长度的字符串,类似于MySQL的主键概念,用于唯一标识数据。

ObjectID.png

举个栗子

ObjectID('59e3f69aec98545db2fbc3b7')
"crawl_time" : ISODate("2017-10-16T08:00:26.759Z")

59e3f69a 转为10进制时间戳 1508112026 ->北京时间 2017/10/16 8:0:26
ec9854 -> 机器主机名的散列值
5db2 -> 转为10进制的进程号 23986
fbc3b7 -> 自增流水 16499639

如果在1台机器上同一个进程同1秒同时写入256^3以内的数据,是绝对不会重复的!

1.7 事务
在MongoDB4.0之前是不支持事务的,MongoDB 4.0 支持副本集多文档事务,并计划在 4.2 版本支持分片集群事务功能。

with client.start_session() as s:
    s.start_transaction()
    collection_one.insert_one(doc_one, session=s)
    collection_two.insert_one(doc_two, session=s)
    s.commit_transaction()
  1. MongoDB常用操作

2.1 数据库操作

# 创建数据库
use test
# 查看已存在的数据库
show dbs
# 删除数据库(删完跑路🏃🏃🏃)
db.dropDatabase()

2.2 表操作

# 创建表
db.createCollection('test')
# 查看表
show collections / show tables
# 删除表
db.getCollection('test').drop()

2.3 插入数据

# 插入单条数据
db.test.insert({
    'name': '张三',
    'age': 18,
    'birthday': new Date('2000-01-01T00:00:00Z'),
    'hobby': ['lol', 'dota'],
    'friends': {
        'boy': ['Tom', 'Harry'],
        'girl': ['tracy']
    }
})

# 插入多条数据
db.test.insertMany(
[{
        'name': '赵四',
                'age':10,
        'sex': 'male',
        'hobby': ['王者农药'],
    },
    {
        'name': '乔杉',
        'age': 18,
        'hobby': ['大保健'],
    }
]
)

2.4 删除数据

db.test.remove({'name':'张三'})

2.5 更新数据
由于MongoDB是没有表结构的,所以更新数据和关系型数据库有一些区别。update共有4个参数

  • 筛选条件
  • 修改后的内容
  • 如果不存在update的记录,是否插入objNew,true为插入,默认是false,不插入。
  • 是否允许更新多条数据
# 更新1条数据,给赵四做个变性手术
db.test.update({'name':'赵四'},{'$set':{'sex':'famale'}},false,false)
# 更新多条数据
db.test.update({'age':18},{'$set':{'age':19}},false,true)
# 添加字段
db.test.update({'age':19},{'$set':{'home':'东北'}},true,true)
# 删除字段
db.test.update({},{'$unset':{'home':1}},true,true)

# 列表中添加元素
# 去重
db.test.update({},{'$addToSet':{'hobby':'python'}},false,true)
# 不去重
db.test.update({},{'$push':{'hobby':'python'}},false,true)

# 列表中移除元素

# $pop操作符移除数组中的第一个或者最后一个元素(1为最后一个元素,-1为第一个元素)
db.test.update({'name':'张三'},{'$pop':{'hobby':1}})

# $pull操作符从现有数组中移除与指定条件匹配的值或值的所有实例
db.test.update({'name':'张三'},{'$pull':{'hobby':'python'}})

2.6 查询数据

# 普通查询
db.getCollection('test').find()
# 查询指定字段
db.getCollection('test').find({},{'name':1,'age':1})
# 查询数量
db.getCollection('test').find({'age':19}).count()
# 查询friends字段为object的数据
db.test.find({'friends':{'$type':3}})
# 去重
db.getCollection('test').distinct('name',{'age':19})
# 排序 1升序 -1降序
db.getCollection('test').find({},{'name':1,'age':1}).sort({'age':-1})
# 分页 注:mongodb数据量较大时,skip慎用,效率很差
db.getCollection('test').find({},{'name':1,'age':1}).skip(1).limit(2)
# 条件查询 $gte>= $lte <=  $gt > $lt <  $exists:字段是否存在
db.getCollection('test').find({'$or':[{'age':{'$gt':19}},{'birthday':{'$exists':1}}]})

2.7 pipeline管道

英文文档中是aggregation pipeline,直译为聚合管道,它可以对数据文档进行变换和组合。聚合管道是基于数据流概念,数据进入管道经过一个或多个stage,每个stage对数据进行操作(筛选,投射,分组,排序,限制或跳过)后输出最终结果。

pipeline.png

按城市聚合房源量

db.getCollection('danke_house_2018-09-28').aggregate([
        {
            "$project": {"_id": 0,"city":1,"house_id": 1,"price":1,"district":1}
        },
        {
            "$match":{"city":{"$exists":1},"district":{"$exists":1}}
        },
        {
            "$group": {
                "_id": "$city",
//                 "_id": {city:"$city",district:"$district"},
                "num": {"$sum": 1}
            }
        },
        {
            "$sort": {"num": -1}
        },
        {
            "$limit":5
            }
        ])
/* 1 */
{
    "_id" : "北京",
    "num" : 9533.0
}

/* 2 */
{
    "_id" : "深圳",
    "num" : 4679.0
}

/* 3 */
{
    "_id" : "上海",
    "num" : 3314.0
}

/* 4 */
{
    "_id" : "杭州",
    "num" : 2774.0
}

/* 5 */
{
    "_id" : "武汉",
    "num" : 2195.0
}
  1. MongoDB索引

3.1 创建索引

# 创建索引单字段索引
db.getCollection('danke_house_2018-09-28').ensureIndex({'city':1},{'background':true})

# 创建唯一索引
db.test.ensureIndex({'name':1},{'unique':true})

# 创建复合索引
db.getCollection('danke_house_2018-09-28').ensureIndex({'city':1,'district':-1})

# 创建地理位置索引
# 经纬度字段需要使用[lon,lat] 或者{'lon':lon,'lat':lat}的方式存储数据
db.getCollection('danke_house_2018-09-28').createIndex({'loc':"2d"})

# 查看索引
db.test.getIndexes()

# 查询距离华控大厦最近的10条房源
db.getCollection('danke_house_2018-09-28').find({'loc':{'$near':[116.307753,40.06118]}}).limit(10)

mongodb空间索引

3.2 索引的原理
创建索引的时候需要指定顺序,1代表升序,-1代表降序。

对于单索引来说{’a‘:1},那么sort {’a‘:1}或者{'a':-1}都会生效
对于复合索引来说{'a':1,'b':1},那么sort{'a':1,'b':1}或者{’a‘:-1,'b':-1}都会生效,但是{'a':1,'b':-1} 和{'a':-1,'b':1}不会生效

3.3 执行计划
和MySQL类似,通过explain可以查看Mongodb的执行计划

db.getCollection('danke_house_2018-09-28').find({'city':'北京'}).explain()
  1. 程序连接MongoDB
  • python 代码
# coding=utf-8
import pymongo

# 创建连接
conn = pymongo.MongoClient(host='127.0.0.1', port=27017)
# 选择库表
collection = conn['test']['test']
result = list(collection.find())
print result
  1. 数据迁移
    5.1 mongoexport
    mongoexport命令可以将mongodb的数据导出为JSON或者CSV
# 导出数据为CSV
mongoexport --host=127.0.0.1:27017 -d test -c danke_house_2018-09-28 --type=csv -o danke.csv -f city,district,zone
# 导出数据为JSON
mongoexport --host=127.0.0.1:27017 -d test -c danke_house_2018-09-28 --type=json -o danke.json -q "{'city':'北京'}"

5.2 mongodump
mongodump命令会将数据导出为mongodb的BSON格式,如果有索引,索引文件也会被导出。

# 数据备份
mongodump --host=127.0.0.1:27017 -d test -c danke_house_2018-09-28 -o danke

5.3 mongoimport

# 导入CSV
mongoimport --host=127.0.0.1:27017 -d test2 -c danke_csv --type csv --file danke.csv --headerline
# 导入JSON
mongoimport --host=127.0.0.1:27017 -d test2 -c danke_json --type json --file danke.json

5.4 mongorestore

cd danke2;
mongorestore --host=127.0.0.1:27017 -d test2 --dir test
  1. 自己踩的坑
  • 当数据量较大的时候,读取数据不能一次性都加载到内存中,需要分页读取。使用skip和limit进行分页吗?too young to simple! 随着数据量增大,skip的效率会指数下降,怎么办?
  • 一个很巧妙的方法,利用_id的索引进行排序,虽然mongodb没有自增ID的概念,但是_id可以充当自增ID的功能。例如遍历1000万数据,每次读取1万条数据,然后我们记录下1万条数据的最后1条数据的_id,然后取大于该_id的数据limit(10000)即可

上代码

def data_gen(self, page_size=10000):
    '''
    数据生成器
    :return:
    '''
    data_count = self.collection.count()
    page_count = int(math.ceil(data_count / float(page_size)))
    last_id = None
    for i in range(page_count):
        if i == 0:
            page_data = list(self.collection.find().sort([('_id', 1)]).limit(page_size))
        else:
            page_data = list(self.collection.find({'_id': {'$gt': last_id}}).sort([
                ('_id', 1)]).limit(page_size))
        if page_data:
            last_id = page_data[-1].get('_id')
        yield page_data
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,928评论 2 89
  • 第一章:操作系统引论 计算机系统是由硬件和软件两部分组成。操作系统是配置在计算机硬件上的第一层软件,是对硬件系统的...
    溪的风阅读 1,233评论 0 0
  • 《Docker环境下的前后端分离部署与运维》课程脚本 [TOC] 一、Docker虚拟机常用命令 先更新软件包yu...
    mingminy阅读 600评论 0 0
  • 《分权制衡:银行货币信用体系》优秀作业 问题:任何金融现象、金融市场的背后,都有一个历史演化的过程。思考为什么P2...
    卓越的表现阅读 372评论 0 0
  • 我要改标题我要改标题我要改标题我要改标题我要改标题我要改标题我要改标题eeeeeee44455222 32rff...
    Emily_chen_2阅读 190评论 0 0