什么是序列化
序列化是指将程序中的数据结构或对象转换成可以取用的格式,以便之后在本机或其他计算机上能够得以恢复利用的过程。这里我们先约定内存中的变量的本质是信息。对于Pyhon,在内存中,操作信息需要以Python的某种数据类型(比如说列表,字典)的形式存在。而我们要把信息保存到磁盘中,显然我们不能再让信息以上述提到的Python数据类型的形式存在了,我们可能要将信息变成字节的形式。好,上述这个“变”的过程,我们就称之为序列化,那么其逆过程显然就被称作反序列化。具体详见序列化。
python自带的序列化工具pickle
我们都知道,在程序的运行过程中,我们的变量、数据结构、对象的值都可能发生变化。一旦程序结束,变量的内存被释放回收,如果没有将这些值存入磁盘,那么这些值就丢失了。而变量从内存中变成可存储或传输的过程就是序列化的过程。
Python提供pickle的模块可以实现序列化:
<font color=red>pickle.dumps()</font>和<font color=red>pickle.dump()</font>两个函数能够完成序列化的操作。<font color=red>pickle.dumps()</font>方法把任意对象序列化成一个bytes,然后,就可以把这个bytes写入文件。或者用另一个方法<font color=red>pickle.dump()</font>直接把对象序列化后写入一个<font color=red>file-like Object</font>。下面依次举例说明:
>>>import pickle
>>>from io import BytesIO
>>>d = dict(name='bob', age=20, score=80)
>>>print(d)
{'gender': 'male', 'age': 18, 'name': 'Adam'}
>>>pickle.dumps(d)# 将d序列化成bytes
"(dp0\nS'gender'\np1\nS'male'\np2\nsS'age'\np3\nI18\nsS'name'\np4\nS'Adam'\np5\ns."
>>>f = BytesIO(pickle.dumps(d))# 在内存中写入bytes数据
>>>pickle.load(f)# 将bytes还原
{'age': 18, 'gender': 'male', 'name': 'Adam'}
>>>with open('dump', 'wb') as f:
>>> d = pickle.dump(d, f)
>>>with open('dump', 'rb') as f:
>>> a = pickle.load(f)
>>> print(a)
{'gender': 'male', 'age': 18, 'name': 'Adam'}
Pickle的问题和其他编程语言特定的序列化工具一样,只能适用于python的序列化。而且还可能存在不同python版本之间不兼容的情况。
JSON
通过(反)序列化能够让信息以我们想要形式存在了(其实也是非这样做不可,因为内存只认识变量,而磁盘又只认识字节)。我们前面是采用Python语言来操作信息的,我们只考虑Python数据类型与字节类型之间的转换,但是如果我们要用Java来操作信息呢?自然,Java也应该有它特有的序列化实现方式(比如是Java数据类型和字节类型之间的转换)。所以当我们想把Python数据类型转化为Java数据类型时就出问题了。为了解决这个问题,我们需要一个标准来过渡二者的转换。XML、JSON就是解决这个问题的方法!它提供了一种过渡类型,让Python程序员和Java程序员之间也能交换信息。在这里,JSON是更好的选择。因为JSON表示出来就是一个字符串,可以被所有语言读取,也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式,并且比XML更快,而且可以直接在Web页面中读取,非常方便。
JSON表示的对象就是标准的JavaScript语言的对象,JSON和Python内置的数据类型对应如下:
JSON | python |
---|---|
{} | dict |
[] | list |
"string" | str |
1234 123.4 | int float |
true/false | True/False |
null | None |
Python内置的json模块能让我们很轻松的将对象和json格式进行相互转换。
>>> import json
>>> d = dict(name='Bob', age=20, score=88)
>>> json.dumps(d)
'{"age": 20, "score": 88, "name": "Bob"}'
>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
>>> json.loads(json_str)
{'age': 20, 'score': 88, 'name': 'Bob'}
以上的dumps、loads和dump、load方法的区别和之前pickle所述的区别一致。
关于json模块的详细信息,请查看官方文档。