MongoDB的文档类似于JSON,而JSON只有6种数据类型。
分别是:null,布尔,数字,字符串,数组,对象。
以上6中类型可以表示绝大多数的数据了,但是仍然有一些数据需要其他类型。
比如,JSON没有日期类型,只有一种数字类型,无法区分整数和浮点数,更不用说32位还是64的数字的。
MongoDB的设计者考虑的很充分,在JSON基础之上,又添加了很多类型,使之可以保存几乎所有的数据类型。
- null:用于表示空值,或者不存在的字段
{ "x" : null} - 布尔:布尔类型有两个值,'true' 和 'false'
{ "x" : true } - 32位整数:shell中不支持,JS仅支持64位浮点数,所以32位整数会被自动转换。
- 64位整数:shell中同样不支持,shell会视同特殊的内嵌文档来表示64位整数。
- 64位浮点数:shell中的数字都是这个类型。
{ "x" : 3.14} { "x" : 3 } //3在这里也是一个浮点数 - 字符串:UTF-8字符串
{ "x" : "this is a string"} - 符号:shell不支持这种类型,shell会将数据库里的符号转换位字符串
- 对象id:是文档的12字节的唯一ID。
{ "x" : ObjectId() } - 日期:从标准纪元开始的毫秒数。
{ "x" : new Date() } - 正则表达式:文档中可以包含正则表达式,采用JS正则语法。
{ "x" : "/foobar/i" } - 代码:文档中还能包含JS代码。
{ "x" : function() { ... } } - 二进制数据:可由任意字节组成,shell中无法使用。
- 最大值,最小值:BSON中表示,shell中无法使用。
- 未定义:未定义类型,undefined
{ "x" : undefined } - 数组:值得集合或者列表。
{ "x" : [ "a", "b", "c"] } - 内嵌文档:就是文档的值又是一个文档。
{ "x" : { "y" : "abc" } }
以下是这些类型要注意的地方
数字问题
JS中只有一种数值类型,64位浮点数,而在MongoDB中有3种数据类型,32位整数,64位整数,64位浮点数。
默认情况下,shell中的 数值都被MongoDB当做64位浮点数处理。
这意味着,你从MongoDB中获取了一个32位整数,修改文档之后,将文档存回去的时候,这个32位整数就会被转换成64位浮点数,即便保持这个整数原封不动也会是这样。
所以,明智的做法是,尽量不要在shell下覆盖整个文档。
日期问题
MongoDB中使用Date对象作为日期类型。
创建一个日期对象,会用new Date()。如果调用构造函数(Date(),前面没有new关键字),则会生成一个时间的字符串,并非真正的日期类型,这样会导致日期和字符串混淆。因为日期和字符串是不能互相匹配的,这将会给数据库的操作带来很大麻烦。
shell中的日期,使用本地时区设置,但是日期在数据库中存储的是从标准纪元开始的毫秒数,没有时区的相关信息,可以用一个字段来单独保存时区信息。
数组
既可以作为有序对象来操作(类似列表,栈,队列),也可以像无序对象来操作(类似集合)
数组可以包含不同数据类型的元素。
如果经常查询某个数组中的元素,可以对其创建索引,来提高性能。(以后要重点看这个)
_id和OjbectId
MongoDB中存储的文档必须有一个_id字段,它是在插入数据时系统自动添加的,这是一个OjbectId类型的数据,用来确保集合中每个文档都是唯一的。(注意是区分同一个集合中的文档,不同集合的文档的_id值可以一样)。
OjbectId使用12字节的存储空间,每个字节是两位16进制数字,是一个24位的字符串。
上图每个黑色的方块表示1个字节,分别从1-12编号。
1-4表示:时间戳,单位是秒。
5-7表示:主机的唯一标识符。
8-9表示:PID,进程标识符。
10-12表示:自增的计数器。
看到这里也许就明白了,前9位数就保证了,同一秒钟不同机器不同进程产生的OjbectId是唯一的。
同一秒最多可以产生:2的8次方 的3次方个_id,16777216个。
如果插入数据时没有_id,系统会帮你创建一个_id键,但是通常都在客户端完成这件事,因为这样可以降低服务器的压力,而且扩展应用层比扩展数据层方便的多。而且在客户端生成_id,驱动程序会提供更丰富的API。