Python的序列化问题

什么是序列化

序列化是指将程序中的数据结构或对象转换成可以取用的格式，以便之后在本机或其他计算机上能够得以恢复利用的过程。这里我们先约定内存中的变量的本质是信息。对于Pyhon，在内存中，操作信息需要以Python的某种数据类型（比如说列表，字典）的形式存在。而我们要把信息保存到磁盘中，显然我们不能再让信息以上述提到的Python数据类型的形式存在了，我们可能要将信息变成字节的形式。好，上述这个“变”的过程，我们就称之为序列化，那么其逆过程显然就被称作反序列化。具体详见序列化。

python自带的序列化工具pickle

我们都知道，在程序的运行过程中，我们的变量、数据结构、对象的值都可能发生变化。一旦程序结束，变量的内存被释放回收，如果没有将这些值存入磁盘，那么这些值就丢失了。而变量从内存中变成可存储或传输的过程就是序列化的过程。
Python提供pickle的模块可以实现序列化：
pickle.dumps()和pickle.dump()两个函数能够完成序列化的操作。pickle.dumps()方法把任意对象序列化成一个bytes，然后，就可以把这个bytes写入文件。或者用另一个方法pickle.dump()直接把对象序列化后写入一个file-like Object。下面依次举例说明：

>>>import pickle
>>>from io import BytesIO
>>>d = dict(name='bob', age=20, score=80)
>>>print(d)
{'gender': 'male', 'age': 18, 'name': 'Adam'}
>>>pickle.dumps(d)# 将d序列化成bytes
"(dp0\nS'gender'\np1\nS'male'\np2\nsS'age'\np3\nI18\nsS'name'\np4\nS'Adam'\np5\ns."
>>>f = BytesIO(pickle.dumps(d))# 在内存中写入bytes数据
>>>pickle.load(f)# 将bytes还原
{'age': 18, 'gender': 'male', 'name': 'Adam'}
>>>with open('dump', 'wb') as f:
>>>    d = pickle.dump(d, f)
>>>with open('dump', 'rb') as f:
>>>    a = pickle.load(f)
>>>    print(a)
{'gender': 'male', 'age': 18, 'name': 'Adam'}

Pickle的问题和其他编程语言特定的序列化工具一样，只能适用于python的序列化。而且还可能存在不同python版本之间不兼容的情况。

JSON

通过(反)序列化能够让信息以我们想要形式存在了(其实也是非这样做不可，因为内存只认识变量，而磁盘又只认识字节)。我们前面是采用Python语言来操作信息的，我们只考虑Python数据类型与字节类型之间的转换，但是如果我们要用Java来操作信息呢？自然，Java也应该有它特有的序列化实现方式(比如是Java数据类型和字节类型之间的转换)。所以当我们想把Python数据类型转化为Java数据类型时就出问题了。为了解决这个问题，我们需要一个标准来过渡二者的转换。XML、JSON就是解决这个问题的方法！它提供了一种过渡类型，让Python程序员和Java程序员之间也能交换信息。在这里，JSON是更好的选择。因为JSON表示出来就是一个字符串，可以被所有语言读取，也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式，并且比XML更快，而且可以直接在Web页面中读取，非常方便。
JSON表示的对象就是标准的JavaScript语言的对象，JSON和Python内置的数据类型对应如下：

JSON	python
{}	dict
[]	list
"string"	str
1234 123.4	int float
true/false	True/False
null	None

Python内置的json模块能让我们很轻松的将对象和json格式进行相互转换。

>>> import json
>>> d = dict(name='Bob', age=20, score=88)
>>> json.dumps(d)
'{"age": 20, "score": 88, "name": "Bob"}'
>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
>>> json.loads(json_str)
{'age': 20, 'score': 88, 'name': 'Bob'}

以上的dumps、loads和dump、load方法的区别和之前pickle所述的区别一致。
关于json模块的详细信息，请查看官方文档。

Python的序列化问题