MongoDB中的数据类型

MongoDB的文档类似于JSON，而JSON只有6种数据类型。
分别是：null，布尔，数字，字符串，数组，对象。

以上6中类型可以表示绝大多数的数据了，但是仍然有一些数据需要其他类型。
比如，JSON没有日期类型，只有一种数字类型，无法区分整数和浮点数，更不用说32位还是64的数字的。

MongoDB的设计者考虑的很充分，在JSON基础之上，又添加了很多类型，使之可以保存几乎所有的数据类型。

null：用于表示空值，或者不存在的字段
{ "x" : null}
布尔：布尔类型有两个值，'true' 和 'false'
{ "x" : true }
32位整数：shell中不支持，JS仅支持64位浮点数，所以32位整数会被自动转换。
64位整数：shell中同样不支持，shell会视同特殊的内嵌文档来表示64位整数。
64位浮点数：shell中的数字都是这个类型。
{ "x" : 3.14} { "x" : 3 } //3在这里也是一个浮点数
字符串：UTF-8字符串
{ "x" : "this is a string"}
符号：shell不支持这种类型，shell会将数据库里的符号转换位字符串
对象id：是文档的12字节的唯一ID。
{ "x" : ObjectId() }
日期：从标准纪元开始的毫秒数。
{ "x" : new Date() }
正则表达式：文档中可以包含正则表达式，采用JS正则语法。
{ "x" : "/foobar/i" }
代码：文档中还能包含JS代码。
{ "x" : function() { ... } }
二进制数据：可由任意字节组成，shell中无法使用。
最大值，最小值：BSON中表示，shell中无法使用。
未定义：未定义类型，undefined
{ "x" : undefined }
数组：值得集合或者列表。
{ "x" : [ "a", "b", "c"] }
内嵌文档：就是文档的值又是一个文档。
{ "x" : { "y" : "abc" } }

以下是这些类型要注意的地方

数字问题

JS中只有一种数值类型，64位浮点数，而在MongoDB中有3种数据类型，32位整数，64位整数，64位浮点数。
默认情况下，shell中的数值都被MongoDB当做64位浮点数处理。
这意味着，你从MongoDB中获取了一个32位整数，修改文档之后，将文档存回去的时候，这个32位整数就会被转换成64位浮点数，即便保持这个整数原封不动也会是这样。
所以，明智的做法是，尽量不要在shell下覆盖整个文档。

日期问题

MongoDB中使用Date对象作为日期类型。
创建一个日期对象，会用new Date()。如果调用构造函数（Date()，前面没有new关键字），则会生成一个时间的字符串，并非真正的日期类型，这样会导致日期和字符串混淆。因为日期和字符串是不能互相匹配的，这将会给数据库的操作带来很大麻烦。
shell中的日期，使用本地时区设置，但是日期在数据库中存储的是从标准纪元开始的毫秒数，没有时区的相关信息，可以用一个字段来单独保存时区信息。

数组

既可以作为有序对象来操作（类似列表，栈，队列），也可以像无序对象来操作（类似集合）
数组可以包含不同数据类型的元素。
如果经常查询某个数组中的元素，可以对其创建索引，来提高性能。（以后要重点看这个）

_id和OjbectId

MongoDB中存储的文档必须有一个_id字段，它是在插入数据时系统自动添加的，这是一个OjbectId类型的数据，用来确保集合中每个文档都是唯一的。（注意是区分同一个集合中的文档，不同集合的文档的_id值可以一样）。
OjbectId使用12字节的存储空间，每个字节是两位16进制数字，是一个24位的字符串。

image.png

上图每个黑色的方块表示1个字节，分别从1-12编号。
1-4表示：时间戳，单位是秒。
5-7表示：主机的唯一标识符。
8-9表示：PID，进程标识符。
10-12表示：自增的计数器。
看到这里也许就明白了，前9位数就保证了，同一秒钟不同机器不同进程产生的OjbectId是唯一的。
同一秒最多可以产生：2的8次方的3次方个_id，16777216个。

如果插入数据时没有_id，系统会帮你创建一个_id键，但是通常都在客户端完成这件事，因为这样可以降低服务器的压力，而且扩展应用层比扩展数据层方便的多。而且在客户端生成_id，驱动程序会提供更丰富的API。

MongoDB中的数据类型

以下是这些类型要注意的地方

数字问题

日期问题

数组

_id和OjbectId

推荐阅读更多精彩内容