03-数据库MongoDB[Python]

一、MongoDB简介

概述
MongoDB是一个基于分布式文件存储的数据库，由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。

MongoDB介于关系型数据和非关系型数据库之间，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，类似json格式，因此可以存储比较复杂的数据类型。

MongoDB最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库表单查询的绝大部分功能，而且还支持对数据建立索引。
MySQL
关系型数据库。查询语句是使用传统的sql语句，拥有较为成熟的体系，成熟度很高。关系型数据库遵循ACID规则开源数据库的份额在不断增加，mysql的份额页在持续增长。缺点：在海量数据处理的时候效率会显著变慢。

数据库事务必须具备ACID特性，ACID是Atomic原子性，Consistency一致性，Isolation隔离性，Durability持久性。
数据的持久存储，尤其是海量数据的持久存储，还是需要一种关系数据库。
MongoDB
非关系型数据库(nosql ),属于文档型数据库。存储方式：虚拟内存+持久化。
查询语句：是独特的MongoDB的查询方式。
适合场景：事件的记录，内容管理或者博客平台等等。
数据处理：数据是存储在硬盘上的，只不过需要经常读取的数据会被加载到内存中，将数据存储在物理内存中，从而达到高速读写。
成熟度与广泛度：新兴数据库，成熟度较低，Nosql数据库中最为接近关系型数据库，比较完善的DB之一，适用人群不断在增长。
优势：快速！在适量级的内存的MongoDB的性能是非常迅速的，它将热数据存储在物理内存中，使得热数据的读写变得十分快，高扩展， json的存储格式！

文档的数据库: 即可以存放xml、json、bson类型系那个的数据。这些数据具备自述性（self-describing），呈现分层的树状数据结构。数据结构由键值(key=>value)对组成。

关系型数据库和非关系型数据库的区别
关系型数据库通过外键关联来建立表与表之间的关系；
非关系型数据库通常指数据以对象的形式存储在数据库中，而对象之间的关系通过每个对象自身的属性来决定；

学生: 张三
性别: 男
科目: 语文
成绩: 80

关系型数据库:
  // 学生表
  create table student(id int primary key, name char(50), sex char(10))
  // 成绩表，stuid存储的是学生表中对应的主键，用于表的关联
  create table score(id int primary key, name char(20),grade int,stuid int, foreign key(stuid) references student(id))

非关系型数据库:
{
  "name":"张三",
  "sex":"男",
  "score":{
    "name":"语文",
    "grade": 80
  }
}

关系型数据库SQLite、Oracle、mysql
非关系型数据库 MongoDb、redis

MySQL和MongoDB的区别
数据库: 容器，不管是mysql还是mongodb，一个单一的服务器都可以管理多个数据库;
集合：是一组mongodb的文件，等价于mysql中的table，集合中文档可以有不同的字段，也可以有不同的数据类型;

MySQL和MongoDB的区别

二、MongoDB安装和卸载

卸载

sudo apt-get autoremove mongodb
sudo apt-get autoclean mongodb

// 清除残留数据
dpkg -l |grep ^rc|awk '{print $2}' |tr ["\n"] [" "]|sudo xargs dpkg -P

安装

第1步 – 导入公钥**
  Ubuntu软件包管理器apt（高级软件包工具）需要软件分销商的GPG密钥来确保软件包的一致性和真实性。 执行此下面的命令将MongoDB密钥导入到您的服务器：
  sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2930ADAE8CAF5059EE73BB4B58712A2291FA4AD5

第2步 – 创建源列表文件MongoDB
  检查URL http://repo.mongodb.org/apt/ubuntu/dists/。
  如果您在该网页上看到一个目录“bionic”，则将下述命令中的单词“xenial”替换为“bionic”一词，
【原因：MongoDB尚未发布Bionic Beaver软件包，但Xenial软件包在Ubuntu 18.04 LTS上运行良好】
  执行以下命令在/etc/apt/sources.list.d/中创建一个MongoDB列表文件：
  echo "deb http://repo.mongodb.org/apt/ubuntu xenial/mongodb-org/3.6 multiverse" | sudo tee /etc/apt/sources.list.d/mongodb-org-3.6.list

第3步 – 更新存储库
  使用apt命令更新存储库：
  sudo apt-get update
  说明：执行完会提示一些失败，不用在意

第4步 – 安装MongoDB
  执行以下命令来安装MongoDB：
  sudo apt-get install -y mongodb

第5步：启动MongoDB
  执行以下命令启动MongoDB并将其添加为在启动时启动的服务
  sudo systemctl start mongodb

    如果执行完这一步终端没有任何输出，则说明是正确的
    如果启动的时候提示：Failed to start mongod.service: Unit mongodb.service not found.
    解决办法如下：
    1创建配置文件：
      cd /etc/systemd/system/
      sudo vi mongodb.service
    2.在里面追加文本：
      [Unit]
      Description=High-performance, schema-free document-oriented database
      After=network.target
      [Service]
      User=mongodb
      ExecStart=/usr/bin/mongod --quiet --config /etc/mongodb.conf
      [Install]
      WantedBy=multi-user.target
    3.退出
      :wq
    4.启动服务
      sudo systemctl start mongodb
      sudo systemctl status mongodb
    5.设置开机自启动
      sudo systemctl enable mongodb

第6步：登录MongoDB
    mongo

      如果出现错误全局初始化失败：BadValue无效或无用户区域设置。 请确保LANG和/或LC_ *环境变量设置正确，请尝试命令：
      export LC_ALL=C

三、MongoDB之数据库操作

创建数据库

# mongodb
use DATABASE_NAME
注意：如果指定的数据库DATABASE_NAME不存在，则该命令将创建一个新的数据库，否则返回现有的数据库

# mysql中
创建数据库：create database basename;
切换数据库：use basename;

admin：从权限的角度来说，是root的数据库
local：本地数据
config:配置，用于保存MongoDB的配置信息

检查当前选择的数据
```
db
```
默认的数据库test
显示数据库列表
```
show dbs 
```
删除数据库
```
// 默认进入数据库是test
db.dropDatabase()
```
注意：默认删除当前正在工作的数据库

四、MongoDB之集合操作

类似于MySQL中的表。
集合存在于数据库中，集合没有固定的结构，意味着可以对集合插入不同格式和不同类型的数据，但是尽量插入集合的时候保证数据的关联性。

创建集合

集合名的规范：
  a.不能空字符串
  b.集合名不能含有\0【空字符】，表示集合名的结尾
  c.集合名不能以"system."开头，为系统集合保留的关键字
  d.不能含有保留字符，千万不能含有$

语法:
  // name的类型为String，是要创建的集合的名称
  // options的类型是Document，是一个文档，指定相应的大小和索引，是可选参数
  // 在插入文档时，MongoDB首先检查上限集合capped字段的大小，然后检查max字段
  db.createCollection(name, options)

例如:
  // 没有options选项的集合创建
  db.createCollection("myCollection")

  // 有options选项的集合的创建
  db.createCollection("mycol",{capped:true,autoIndexId:true,size:1024,max:10000})

选项列表

显示当前数据库中的集合
```
show collections
```

删除集合

语法:
  // 如果选定的集合成功删除，drop()方法将返回true，否则返回false
  db.COLLECTION_NAME.drop()

例如:
  db.mycollection.drop()

五、MongoDB之文档操作

文档概念
文档：相当表中的一条记录【实体】
是一组键值对，文档不需要设置相同的字段，并且相同的字段不需要相同的数据类型

注意: 
a.文档中的键值对是有序的
b.文档中值除了字符串之外，还可以是其他数据类型【嵌套一个文档】
c.严格区分大小写和数据类型的，mycol myCol
d.文档中不能有重复的键
e.文档中的键基本都是用字符串表示的

文档中键的命名：
a.键不能包含\0
b.$和.有特殊含义
c.以下划线开头的键是保留的，尽量不要使用下划线开头

插入文档

语法:
  // 在插入的文档中，如果不指定_id参数，那么 MongoDB 会为此文档分配一个唯一的ObjectId
  // _id为集合中的每个文档唯一的12个字节的十六进制数。
  db.COLLECTION_NAME.insert(document)

例如:
  // 插入一个
  db.mycol.insert({id:101, name:'lisi', age:20})
  db.mycol.insert({ 
     item: "canvas", 
     num: 100, 
     tags: ["cotton"], 
     size: { 
          h: 20,
          w: 30, 
      } 
  })

  // 插入多个(注意方括号)
  db.mycol.insert( [{id:102, name:'wagnwu', age:18}, {id:103, name:'zhaoliu', age:21}, {id:104, name:'tianqi', age:19}] )

  // 查看已插入的文档
  db.mycol.find()
  { "_id" : ObjectId("5b8b59cb5bd1df1fc73dcdc6"), "id" : 101, "name" : "lisi", "age" : 20 }

  // 查看已插入的文档
  db.mycol.find().pretty()
  {
  "_id" : ObjectId("5b8b59cb5bd1df1fc73dcdc6"),
  "id" : 101,
  "name" : "lisi",
  "age" : 20
  }

查询文档

语法:
  // 基本操作
  db.COLLECTION_NAME.find(document)
   // 以格式化的方式返回查询结果
   db.COLLECTION_NAME.find(document).pretty()

注意: 
  find() 将以非结构化的方式返回查询结果

 例如: 
  // 显示所有文档
  db.mycol.find()

  // 默认将所有文档显示，为了限制列表，需要显示的字段设置为1，不显示的设置为0
  db.mycol.find( {'name':'liming'}, {'name':1, 'age': 1} )
  db.mycol.find( {'name':'liming'}, {'age':0} )

  // 限制字段显示
  db.check.find({},{'_id':1,'title':1})

查询文档(条件查询)

- 等于{ <key>:<value> }
  db.mycol.find({'name':'yhy'} ).pretty()

- 小于 { <key>: {$lt:<value>} }
  db.mycol.find( {'age': {$lt:18}} ).pretty()

- 小于等于 { <key>: {$lte:<value>} }
  db.mycol.find( {'age': {$lte:18}} ).pretty()

- 大于 { <key>: {$gt:<value>} }
  db.mycol.find( {'age': {$gt:18}} ).pretty()

- 大于等于 { <key>: {$gte:<value>} }
  db.mycol.find( {'age': {$gte:18}} ).pretty()

- 不等于 { <key>: {$ne:<value>} }
  db.mycol.find( {'age': {$ne:18}} ).pretty()

- 并列关系(and)
  在find()方法中，如果通过使用 ',' 将它们分开传递多个键，则 MongoDB 将其视为AND条件
  db.mycol.find(
    {
      $and: [
        {key1: value1}, {key2: value2}
      ]
    }
  )

- 或者关系(or)
  db.mycol.find(
    {
      $or: [
        {key1: value1}, {key2: value2}
      ]
    }
  )

更新文档

update()更新现有文档中的值,语法：
  db.COLLECTION_NAME.update(SELECTION_CRITERIA, UPDATED_DATA)
例如:
  // update默认只更新一个文档，如果要更新多个文档，则添加参数{multi:true})
  db.check.update( {'title': 'MongoDB Guide'}, {$set: {'title': 'mongo'}} )
  db.check.update( {'title': 'MongoDB Guide'}, {$set: {'title': 'mongo'}, $set: {'say': 'hello'}} )
  db.check.update( {'title': 'MongoDB Guide'}, {$set: {'title': 'mongo'}}, {multi: true} )

save()用传递的文档数据替换现有文档，语法:  
  db.COLLECTION_NAME.save({_id:ObjectId(),NEW_DATA})
例如:
  db.check.save( {'_id':102, 'title':'hello', 'by':'lalala'} )

删除文档

语法:
  db.COLLECTION_NAME.remove(DELLETION_CRITTERIA)

 例如:
   db.check.remove( {'_id':100} )

六、MongoDB之查询

投影
查询过程中，只显示指定的字段
```
语法:
  db.COLLECTION_NAME.find({},{KEY:1})

例如:
  db.mycol.find( {}, {'title':1, _id:0} )
```
在执行find()方法时，始终都会显示_id字段，如果不想要此字段，则需要将其设置为0

限制筛选记录

limit()限制MongoDB要返回的记录数,根据指定的参数返回记录数
语法:
  db.COLLECTION_NAME.find().limit(NUMBER)
例如: 
  // 在查询文档时仅显示两个文档
  db.mycol.find({},{"title":1,_id:0}).limit(2)

skip() 方法跳过指定数量的数据
语法:
  // 注意：skip()方法中的默认值为0。
  db.COLLECTION_NAME.find().limit(NUMBER).skip(NUMBER)
例如:
  db.mycol.find({},{"title":1,_id:0}).limit(1).skip(2)

对查询记录排序

 语法:
    // 使用指定顺序进行排序，1表示升序，-1表示降序
    db.COLLECTION_NAME.find().sort({KEY:1})
  例如:
     db.mycol.find({},{"title":1,_id:0}).sort({"title":-1})

管道的概念
MongoDB的聚合管道将MongoDB文档在一个管道处理完毕后将结果传递给下一个管道处理。管道操作是可以重复的。

$project：修改输入文档的结构。可以用来重命名、增加或删除域，也可以用于创建计算结果以及嵌套文档
  db.article.aggregate( [ {$project:{by_user:1, title:1}} ] )

$limit：用来限制MongoDB聚合管道返回的文档数
  db.article.aggregate( [ {$project:{by_user:1, title:1}}, {$limit: 2} ] )  

$skip：在聚合管道中跳过指定数量的文档，并返回余下的文档
  db.article.aggregate( [ {$project:{by_user:1, title:1}}, {$skip: 1} ] )
  db.article.aggregate( [ {$project:{by_user:1, title:1}}, {$limit:2},{$skip: 1} ] ) 

$group：将集合中的文档分组，可用于统计结果
  db.article.aggregate( [ {$group: {_id:'$by_user', num:{$sum:'$likes'}}} ] )

$sort：将输入文档排序后输出
  db.article.aggregate( [ {$group: {_id:'$by_user', num:{$sum:'$likes'}}},{$sort: {'num':-1}} ] )

分组与聚合函数查询

aggregate()语法:
  db.COLLECTION_NAME.aggregate(AGGREGATE_OPERATION)

- $sum 从集合中的所有文档中求出定义的值
  // 计算每个作者所写的文章点赞数
  db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$sum : "$likes"}}}])
  // 计算每个作者所写文档数量
  // select by_user, count(*) from article group by by_user
  db.article.aggregate([ { $group: {_id:'$by_user', num:{$sum:1}} } ])

- $avg 计算集合中所有文档的所有给定值的平均值
  db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$avg : "$likes"}}}])

- $max 从集合中的所有文档获取相应值的最大值
  // _id:'$by_user'，对应按照by_user分组
  db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$max : "$likes"}}}])
  // _id对应一个常量，即所有数据的操作
  db.article.aggregate([ { $group:{_id:'max', num_likes:{$max:'$likes'}} } ])

- $min 从集合中的所有文档获取相应值的最小值
  db.mycol.aggregate([{$group : {_id : "$by_user", num_tutorial : {$min : "$likes"}}}])

- 例如:
  db.article.aggregate([{$group:{'_id':'$by_user','num_tutorial':{$sum:1}}}])

七、MongoDB之关联关系

MongoDB中的关系表示各个文档在逻辑上的相互关联。关系可以通过嵌入式和引用方法建模。这种关系可以是1：1，1：N，N：1或N：N。

假设有一种情况：要存储用户的地址。一个用户可以拥有多个地址，这就是1：N关系。

// 用户user文档
{
   "_id":10999110,
   "name": "Maxsu",
   "contact": "13800138000",
   "dob": "1992-10-11"
}

// 地址文档
{
   "_id":12200,
   "building": "Hainan Building NO.2100",
   "pincode": 571100,
   "city": "Haikou",
   "province": "Hainan"
}

嵌入式关系建模
在嵌入式方法中，我们将地址(address)文档嵌入到用户(user)文档中

{
   "_id": 21000100,
   "contact": "13800138000",
   "dob": "1991-11-11",
   "name": "Maxsu",
   "address": [
      {
         "building": "Hainan Building NO.2100",
         "pincode": 571100,
         "city": "Haikou",
         "province": "Hainan"
      },
      {
         "building": "Sanya Building NO.2100",
         "pincode": 572200,
         "city": "Sanya",
         "province": "Hainan"
      },
   ]
}

该方法将所有相关数据保存在单个文档中，这使得检索和维护更容易。
可以使用单个查询来在整个文档检索:
 db.users.find( {"name":"Maxsu"},{"address":1, "name":1} )

在上述查询中，db和users分别是数据库和集合。缺点是如果嵌入式文档的大小如果不断增长，可能会影响读/写性能。

建模参考关系
这是设计规范化关系的方法。 
在这种方法中，用户和地址文件将分别维护，但用户文档将包含一个将引用地址文档的id字段的字段。
{
   "_id":ObjectId("52ffc33321332111sdfaf"),
   "contact": "13800138000",
   "dob": "1991-11-11",
   "name": "Maxsu",
   "address_ids": [
      ObjectId("123123"),
      ObjectId("123412")
   ]
}
用户文档包含对应地址的ObjectId的数组字段address_ids。 
使用这些ObjectIds，我们可以从那里查询地址文件并获取地址详细信息。 
使用这种方法，需要两个查询：首先从用户文档获取address_ids字段，然后从地址集中获取这些地址。
var result = db.users.find({"name":"Maxsu"},{"address_ids":1})
var addresses = db.address.find({"_id":{"$in":result["address_ids"]}})

八、MongoDB与Python的交互

- 安装
pip3 install pymongo

- 使用
import pymongo
from pymongo import  MongoClient
from bson.objectid import ObjectId

#1.建立连接
#创建MongoClient的对象
#方式一
#特点：可以连接默认的主机和端口号
#client = MongoClient()
#方式二
#明确指明主机和端口号
#client = MongoClient('localhost',27017)
#client = MongoClient(host='localhost',port=27017)
#方式三
#使用MongoDB URI的
client = MongoClient('mongodb://localhost:27017')

#2.获取数据库
#MongoDB的一个实例可以支持多个独立的数据库
#可以通过MongoClient的对象的属性来访问数据库
#方式一
db = client.test
print(db)
#方式二
#db = client['test']

#3.获取集合
#集合是存储在MongoDb中的一组文档，可以类似于MySQl中的表
#方式一
collection = db.stuents
#方式二
#collection = db['students']
"""
注意：
MongoDB中关于数据库和集合的创建都是懒创建
以上的操作在MongoDB的服务端没有做任何操作
当第一个文档被插入集合的时候才会创建数据库和集合
"""

#4.文档
#在pymongo中使用字典来表示文档
student1 = {
    'id':'20180101',
    'name':'jack',
    'age':20,
    'gender':'male'
}

#5.插入文档
#5.1insert（）
#插入单条数据
#注意：MongoDb会自动生成一个ObjectId,insert函数的返回值为objectid
result = collection.insert(student1)
print(result)

#插入多条数据
student2 = {
    'id':'20180530',
    'name':'tom',
    'age':30,
    'gender':'male'
}
student3 = {
    'id':'20180101',
    'name':'bob',
    'age':18,
    'gender':'male'
}
#result = collection.insert([student2,student3])

#6.查询文档
#6.1
#find_one()
result = collection.find_one({'name':'jack'})
print(type(result))    #<class 'dict'>
print(result)

#6.2find()
#需求：查询年龄为20的数据
results = collection.find({'age':20})
print(results)
#Cursor相当于是一个生成器，只能通过遍历的方式获取其中的数据
for r in results:
    print(r)

#6.3其他用法
#a.count()
#统计所有数据的条数
count1 = collection.find().count()
#统计制定条件的数据条数
count1 = collection.find({'age':20}).count()

#7.更新文档
#7.1update()
conditon = {'name':'jack'}
student = collection.find_one(conditon);
student['age'] = 30
result = collection.update(conditon,student)

#7.2update_one()
conditon = {'name':'jack'}
student = collection.find_one(conditon);
student['age'] = 30
result = collection.update_one(conditon,{'$set':student})
print(result.matched_count,result.modified_count)

#7.3update_many()
#查询年龄大于20的数据，然后讲年龄增加1
conditon = {'age':{'$gt':20}}
result = collection.update_one(conditon,{'$inc':{'age':1}})
print(result.matched_count,result.modified_count)

#8.删除文档
#8.1remove()
#将符合条件的所有的数据全部删除
result = collection.remove({'name':'rose'})

#8.2delete_one()
result = collection.delete_one({'name':'rose'})

#8.3delete_many()
result = collection.delete_many({'name':'rose'})

备注: 默认MongoDB是绑定127.0.0.1，连接远程是连接不了的。
编辑MongoDB配置文件: sudo vi /etc/mongodb.conf
找到 bind_ip = 127.0.0.1 改为 bind_ip = 0.0.0.0

03-数据库MongoDB[Python]

03-数据库MongoDB[Python]

一、MongoDB简介

二、MongoDB安装和卸载

三、MongoDB之数据库操作

四、MongoDB之集合操作

五、MongoDB之文档操作

六、MongoDB之查询

七、MongoDB之关联关系

八、MongoDB与Python的交互

相关阅读更多精彩内容

友情链接更多精彩内容