1 IO流
1.1 简介
1.1.1 定义
IO
在计算机中指Input/Output
,也就是输入和输出
。由于程序和运行时数据是在内存中驻留,由CPU
这个超快的计算核心来执行,涉及到数据交换的地方,通常是磁盘、网络等,就需要IO接口。
比如打开浏览器,访问新浪首页,浏览器这个程序就需要通过网络IO获取新浪的网页。浏览器首先会发送数据给新浪服务器,告诉它我想要首页的HTML,这个动作是往外发数据,叫Output
,随后新浪服务器把网页发过来,这个动作是从外面接收数据,叫Input
。所以,通常,程序完成IO操作会有Input和Output两个数据流。当然也有只用一个的情况,比如,从磁盘读取文件到内存,就只有Input操作,反过来,把数据写到磁盘文件里,就只是一个Output操作。
IO编程中,Stream
(流)是一个很重要的概念,可以把流想象成一个水管,数据就是水管里的水,但是只能单向流动
。Input Stream
就是数据从外面(磁盘、网络)流进内存
,Output Stream
就是数据从内存流到外面
去。对于浏览网页来说,浏览器和新浪服务器之间至少需要建立两根水管,才可以既能发数据,又能收数据。
1.1.2 同步&异步IO
同步和异步的区别就在于是否等待IO执行的结果。
由于CPU和内存的速度远远高于外设的速度,所以,在IO编程中,就存在速度严重不匹配的问题。举个例子来说,比如要把100M的数据写入磁盘,CPU输出100M的数据只需要0.01秒,可是磁盘要接收这100M数据可能需要10秒,怎么办呢?有两种办法:
- 第一种是CPU等着,也就是程序暂停执行后续代码,等100M的数据在10秒后写入磁盘,再接着往下执行,这种模式称为
同步IO
; - 另一种方法是CPU不等待,干别的事去,于是,后续代码可以立刻接着执行,这种模式称为
异步IO
。
1.2 输入输出
1.2.1 输出格式美化
Python两种输出值的方式: 表达式语句和 print()
函数。第三种方式是使用文件对象的 write()
方法,标准输出文件可以用 sys.stdout
引用。
如果希望输出的形式更加多样,可以使用 str.format()
函数来格式化输出值。如果希望将输出的值转成字符串,可以使用 repr() 或 str()
函数来实现。
-
str()
: 函数返回一个用户易读的表达形式。 -
repr()
: 产生一个解释器易读的表达形式。
>>> s = 'Hello, Runoob'
>>> str(s)
'Hello, Runoob'
>>> repr(s)
"'Hello, Runoob'"
>>> str(1/7)
'0.14285714285714285'
>>> x = 10 * 3.25
>>> y = 200 * 200
>>> s = 'x 的值为: ' + repr(x) + ', y 的值为:' + repr(y) + '...'
>>> print(s)
x 的值为: 32.5, y 的值为:40000...
>>> # repr() 函数可以转义字符串中的特殊字符
... hello = 'hello, runoob\n'
>>> hellos = repr(hello)
>>> print(hellos)
'hello, runoob\n'
>>> # repr() 的参数可以是 Python 的任何对象
... repr((x, y, ('Google', 'Runoob')))
"(32.5, 40000, ('Google', 'Runoob'))"
这里有两种方式输出一个平方与立方的表:
>>> for x in range(1, 11):
... print(repr(x).rjust(2), repr(x*x).rjust(3), end=' ')
... # 注意前一行 'end' 的使用
... print(repr(x*x*x).rjust(4))
...
1 1 1
2 4 8
3 9 27
4 16 64
5 25 125
6 36 216
7 49 343
8 64 512
9 81 729
10 100 1000
>>> for x in range(1, 11):
... print('{0:2d} {1:3d} {2:4d}'.format(x, x*x, x*x*x))
...
1 1 1
2 4 8
3 9 27
4 16 64
5 25 125
6 36 216
7 49 343
8 64 512
9 81 729
10 100 1000
注意
:在第一个例子中, 每列间的空格由 print() 添加。
这个例子展示了字符串对象的 rjust() 方法, 它可以将字符串靠右, 并在左边填充空格。
还有类似的方法, 如 ljust()
和 center()
。 这些方法并不会写任何东西, 它们仅仅返回新的字符串。另一个方法 zfill()
, 它会在数字的左边填充 0,如下所示:
>>> '12'.zfill(5)
'00012'
>>> '-3.14'.zfill(7)
'-003.14'
>>> '3.14159265359'.zfill(5)
'3.14159265359'
1.2.2 str.format()
str.format() 的基本使用如下:
>>> print('{}网址: "{}!"'.format('测试', 'www.runoob.com'))
测试: "www.runoob.com!"
括号及其里面的字符 (称作格式化字段
) 将会被 format()
中的参数替换。
在括号中的数字用于指向传入对象在 format()
中的位置
,如下所示:
>>> print('{0} 和 {1}'.format('Google', 'Baidu'))
Google 和 Baidu
>>> print('{1} 和 {0}'.format('Google', 'Baidu'))
Baidu和 Google
如果在 format()
中使用了关键字参数, 那么它们的值会指向使用该名字的参数。
>>> print('{name}网址: {site}'.format(name='测试', site='www.runoob.com'))
测试网址: www.runoob.com
位置及关键字参数可以任意的结合:
>>> print('站点列表 {0}, {1}, 和 {other}。'.format('Google', 'Baidu', other='Taobao'))
站点列表 Google, Baidu, 和 Taobao。
!a
(使用 ascii()), !s
(使用 str()) 和 !r
(使用 repr()) 可以用于在格式化某个值之前对其进行转化:
>>> import math
>>> print('常量 PI 的值近似为: {}。'.format(math.pi))
常量 PI 的值近似为: 3.141592653589793。
>>> print('常量 PI 的值近似为: {!r}。'.format(math.pi))
常量 PI 的值近似为: 3.141592653589793。
可选项 :
和格式标识符可以跟着字段名。 这就允许对值进行更好的格式化。 下面的例子将 Pi 保留到小数点后三位:
>>> import math
>>> print('常量 PI 的值近似为 {0:.3f}。'.format(math.pi))
常量 PI 的值近似为 3.142。
在 :
后传入一个整数, 可以保证该域至少有这么多的宽度。 用于美化表格时很有用。
>>> table = {'Google': 1, 'Baidu': 2, 'Taobao': 3}
>>> for name, number in table.items():
... print('{0:10} ==> {1:10d}'.format(name, number))
...
Google ==> 1
Baidu ==> 2
Taobao ==> 3
如果有一个很长的格式化字符串, 不想将它们分开, 那么在格式化时通过变量名而非位置会是很好的事情。
最简单的就是传入一个字典, 然后使用方括号 []
来访问键值:
>>> table = {'Google': 1, 'Baidu': 2, 'Taobao': 3}
>>> print('Baidu: {0[Baidu]:d}; Google: {0[Google]:d}; Taobao: {0[Taobao]:d}'.format(table))
Baidu: 2; Google: 1; Taobao: 3
注意
:{0[Baidu]:d}
中0
表示取format第一个位置参数,由于只有一个是table,所以是0
,[Baidu]
表示取table字典中的key名,:d
指定了格式化指令,其中 d 表示十进制整数
也可以通过在 table 变量前使用 **
来实现相同的功能:
>>> table = {'Google': 1, 'Baidu': 2, 'Taobao': 3}
>>> print('Baidu: {Baidu:d}; Google: {Google:d}; Taobao: {Taobao:d}'.format(**table))
Baidu: 2; Google: 1; Taobao: 3
1.2.3 旧式字符串格式化
%
操作符也可以实现字符串格式化。 它将左边的参数作为类似 sprintf()
式的格式化字符串, 而将右边的代入, 然后返回格式化后的字符串. 例如:
>>> import math
>>> print('常量 PI 的值近似为:%5.3f。' % math.pi)
常量 PI 的值近似为:3.142。
因为 str.format()
是比较新的函数, 大多数的 Python 代码仍然使用 %
操作符。但是因为这种旧式的格式化最终会从该语言中移除, 应该更多的使用 str.format()
1.2.4 读取键盘输入
Python 提供了 input()
内置函数从标准输入读入一行文本,默认的标准输入是键盘。
str = input("请输入:");
print ("你输入的内容是: ", str)
这会产生如下的对应着输入的结果:
请输入:测试
你输入的内容是: 测试
1.3 文件操作
1.3.1 读和写文件
1.3.1.1 open()
open()
将会返回一个 file
对象,基本语法格式如下:open(filename, mode)
-
filename
:包含了你要访问的文件名称的字符串值。 -
mode
:决定了打开文件的模式:只读,写入,追加等。所有可取值见如下的完全列表。这个参数是非强制的,默认文件访问模式为只读(r)。
完整的语法格式为:
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
参数说明:
-
file
: 必需,文件路径(相对或者绝对路径)。 -
mode
: 可选,文件打开模式 -
buffering
: 设置缓冲 -
encoding
: 一般使用utf8 -
errors
: 报错级别 -
newline
: 区分换行符 -
closefd
: 传入的file参数类型 -
opener
: 设置自定义开启器,开启器的返回值必须是一个打开的文件描述符。
不同模式打开文件的完全列表:
模式 | 描述 |
---|---|
r | 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式 |
rb | 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头 |
r+ | 打开一个文件用于读写。文件指针将会放在文件的开头。 |
rb+ | 以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。 |
w | 打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。 |
wb | 以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。 |
w+ | 打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件 |
wb+ | 以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件 |
a | 打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。 |
ab | 以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。 |
a+ | 打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。 |
ab+ | 以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写。 |
模式 | r | r+ | w | w+ | a | a+ |
---|---|---|---|---|---|---|
读 | + | + | + | + | ||
写 | + | + | + | + | + | |
创建 | + | + | + | + | ||
覆盖 | + | + | ||||
指针在开始 | + | + | + | + | ||
指针在结尾 | + | + |
以下实例将字符串写入到文件 foo.txt 中:
# 打开一个文件
f = open("/tmp/foo.txt", "w")
f.write( "Python 是一个非常好的语言。\n是的,的确非常好!!\n" )
# 关闭打开的文件
f.close()
1.3.1.2 读取其他文件
1.3.1.2.1 二进制文件
前面讲的默认都是读取文本文件,并且是ASCII
编码的文本文件。要读取二进制文件,比如图片、视频等等,用'rb'模式打开文件即可:
>>> f = open('/Users/michael/test.jpg', 'rb')
>>> f.read()
'\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六进制表示的字节
1.3.1.2.2 字符编码
要读取非ASCII编码的文本文件,就必须以二进制模式打开,再解码。比如GBK编码的文件:
>>> f = open('/Users/michael/gbk.txt', 'rb')
>>> u = f.read().decode('gbk')
>>> u
u'\u6d4b\u8bd5'
>>> print u
或者如下:
with open('/Users/michael/gbk.txt', 'r', encoding='gbk') as f:
u = f.read()
1.3.2 文件对象的方法
假设已经创建了一个称为 f 的文件对象。
1.3.2.1 f.read()
f.read()
:为了读取一个文件的内容,调用 f.read(size)
,这将读取一定数目的数据, 然后作为字符串或字节对象返回。size
是一个可选的数字类型的参数。 当 size 被忽略了或者为负, 那么该文件的所有内容都将被读取并且返回。
以下实例假定文件 foo.txt 已存在(上面实例中已创建):
# 打开一个文件
f = open("/tmp/foo.txt", "r")
str = f.read()
print(str)
# 关闭打开的文件
f.close()
输出结果为:
Python 是一个非常好的语言。
是的,的确非常好!!
1.3.2.2 f.readline()
f.readline()
会从文件中读取单独的一行。换行符为 \n
。f.readline()
如果返回一个空字符串, 说明已经已经读取到最后一行。
# 打开一个文件
f = open("/tmp/foo.txt", "r")
str = f.readline()
print(str)
# 关闭打开的文件
f.close()
输出结果为:
Python 是一个非常好的语言。
1.3.2.3 f.readlines()
f.readlines()
将返回该文件中包含的所有行。
如果设置可选参数 sizehint
,则读取指定长度的字节, 并且将这些字节按行分割。
# 打开一个文件
f = open("/tmp/foo.txt", "r")
str = f.readlines()
print(str)
# 关闭打开的文件
f.close()
输出结果为:
['Python 是一个非常好的语言。\n', '是的,的确非常好!!\n']
另一种方式是迭代一个文件对象然后读取每行:
# 打开一个文件
f = open("/tmp/foo.txt", "r")
for line in f:
print(line, end='')
# 关闭打开的文件
f.close()
输出结果为:
Python 是一个非常好的语言。
是的,的确非常好!!
这个方法很简单, 但是并没有提供一个很好的控制。 因为两者的处理机制不同, 最好不要混用。
1.3.2.4 f.write()
f.write(string)
将 string 写入到文件中, 然后返回写入的字符数。
# 打开一个文件
f = open("/tmp/foo.txt", "w")
num = f.write( "Python 是一个非常好的语言。\n是的,的确非常好!!\n" )
print(num)
# 关闭打开的文件
f.close()
输出结果为:
29
如果要写入一些不是字符串的东西, 那么将需要先进行转换:
# 打开一个文件
f = open("/tmp/foo1.txt", "w")
value = ('www.runoob.com', 14)
s = str(value)
f.write(s)
# 关闭打开的文件
f.close()
执行以上程序,打开 foo1.txt 文件:
$ cat /tmp/foo1.txt
('www.runoob.com', 14)
1.3.2.5 f.tell()
f.tell()
用于返回文件当前的读/写
位置(即文件指针的位置)。文件指针表示从文件开头开始的字节数偏移量。f.tell()
返回一个整数,表示文件指针的当前位置。
1.3.2.6 f.seek()
如果要改变文件指针当前的位置, 可以使用 f.seek(offset, from_what)
函数。
f.seek(offset, whence)
用于移动文件指针到指定位置。
offset
表示相对于 whence
参数的偏移量,from_what
的值, 如果是 0 表示开头, 如果是 1 表示当前位置, 2 表示文件的结尾,例如:
-
seek(x,0)
: 从起始位置即文件首行首字符开始移动 x 个字符 -
seek(x,1)
: 表示从当前位置往后移动x个字符 -
seek(-x,2)
:表示从文件的结尾往前移动x个字符
from_what 值为默认为0,即文件开头。下面给出一个完整的例子:
>>> f = open('/tmp/foo.txt', 'rb+')
>>> f.write(b'0123456789abcdef')
16
>>> f.seek(5) # 移动到文件的第六个字节
5
>>> f.read(1)
b'5'
>>> f.seek(-3, 2) # 移动到文件的倒数第三字节
13
>>> f.read(1)
b'd'
1.3.2.7 f.close()
在文本文件中 (那些打开文件的模式下没有 b 的),只会相对于文件起始位置进行定位。
当处理完一个文件后, 调用 f.close()
来关闭文件并释放系统的资源,如果尝试再调用该文件,则会抛出异常。
>>> f.close()
>>> f.read()
Traceback (most recent call last):
File "<stdin>", line 1, in ?
ValueError: I/O operation on closed file
当处理一个文件对象时, 使用 with
关键字是非常好的方式。在结束后, 它会帮你正确的关闭文件。 而且写起来也比 try - finally 语句块要简短:
>>> with open('/tmp/foo.txt', 'r') as f:
... read_data = f.read()
>>> f.closed
True
文件对象还有其他方法, 如 isatty() 和 trucate(), 但这些通常比较少用。
1.4 文件目录
1.4.1 os
如果要在Python程序中执行这些目录和文件的操作怎么办?其实操作系统提供的命令只是简单地调用了操作系统提供的接口函数,Python内置的os
模块也可以直接调用操作系统提供的接口函数。
打开Python交互式命令行,我们来看看如何使用os模块的基本功能:
>>> import os
>>> os.name # 操作系统名字
'posix'
如果是posix,说明系统是Linux、Unix或Mac OS X,如果是nt,就是Windows系统。
要获取详细的系统信息,可以调用uname()函数:
>>> os.uname()
('Darwin', 'iMac.local', '13.3.0', 'Darwin Kernel Version 13.3.0: Tue Jun 3 21:27:35 PDT 2014; root:xnu-2422.110.17~1/RELEASE_X86_64', 'x86_64')
注意uname()
函数在Windows上不提供,也就是说,os模块的某些函数是跟操作系统相关的。
1.4.2 环境变量
在操作系统中定义的环境变量,全部保存在os.environ这个dict中,可以直接查看:
>>> os.environ
{'VERSIONER_PYTHON_PREFER_32_BIT': 'no', 'TERM_PROGRAM_VERSION': '326', 'LOGNAME': 'michael', 'USER': 'michael', 'PATH': '/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/bin:/opt/X11/bin:/usr/local/mysql/bin', ...}
要获取某个环境变量的值,可以调用os.getenv()函数:
>>> os.getenv('PATH')
'/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/bin:/opt/X11/bin:/usr/local/mysql/bin'
1.4.3 操作文件和目录
操作文件和目录的函数一部分放在os模块中,一部分放在os.path模块中,这一点要注意一下。查看、创建和删除目录可以这么调用:
# 查看当前目录的绝对路径:
>>> os.path.abspath('.')
'/Users/michael'
# 在某个目录下创建一个新目录,
# 首先把新目录的完整路径表示出来:
>>> os.path.join('/Users/michael', 'testdir')
'/Users/michael/testdir'
# 然后创建一个目录:
>>> os.mkdir('/Users/michael/testdir')
# 删掉一个目录:
>>> os.rmdir('/Users/michael/testdir')
把两个路径合成一个时,不要直接拼字符串,而要通过os.path.join()
函数,这样可以正确处理不同操作系统的路径分隔符。在Linux/Unix/Mac下,os.path.join()返回这样的字符串:part-1/part-2
而Windows下会返回这样的字符串:part-1\part-2
同样的道理,要拆分路径时,也不要直接去拆字符串,而要通过os.path.split()
函数,这样可以把一个路径拆分为两部分,后一部分总是最后级别的目录或文件名:
>>> os.path.split('/Users/michael/testdir/file.txt')
('/Users/michael/testdir', 'file.txt')
os.path.splitext()可以直接让你得到文件扩展名,很多时候非常方便:
>>> os.path.splitext('/path/to/file.txt')
('/path/to/file', '.txt')
这些合并、拆分路径的函数并不要求目录和文件要真实存在,它们只对字符串进行操作。
文件操作使用下面的函数。假定当前目录下有一个test.txt文件:
# 对文件重命名:
>>> os.rename('test.txt', 'test.py')
# 删掉文件:
>>> os.remove('test.py')
但是复制文件的函数居然在os模块中不存在,原因是复制文件并非由操作系统提供的系统调用。理论上讲,我们通过读写文件可以完成文件复制,只不过要多写很多代码。
幸运的是shutil
模块提供了copyfile()
的函数,还可以在shutil模块中找到很多实用函数,它们可以看做是os模块的补充。
最后看看如何利用Python的特性来过滤文件。比如我们要列出当前目录下的所有目录,只需要一行代码:
>>> [x for x in os.listdir('.') if os.path.isdir(x)]
['.lein', '.local', '.m2', '.npm', '.ssh', '.Trash', '.vim', 'Adlm', 'Applications', 'Desktop', ...]
要列出所有的.py文件,也只需一行代码:
>>> [x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.py']
['apis.py', 'config.py', 'models.py', 'pymonitor.py', 'test_db.py', 'urls.py', 'wsgiapp.py']
1.5 序列化
1.5.1 pickle
1.5.1.1 简介
python的pickle
模块实现了基本的数据序列和反序列化。
通过pickle
模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储。
通过pickle
模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。
基本接口:pickle.dump(obj, file, [,protocol])
:可以把任意对象序列化成一个str
,然后,就可以把这个str写入文件
有了 pickle 这个对象, 就能对 file 以读取的形式打开:x = pickle.load(file)
从 file 中读取一个字符串,并将它重构为原来的python对象。
file: 类文件对象,有read()和readline()接口。
import pickle
# 使用pickle模块将数据对象保存到文件
data1 = {'a': [1, 2.0, 3, 4+6j],
'b': ('string', u'Unicode string'),
'c': None}
selfref_list = [1, 2, 3]
selfref_list.append(selfref_list)
output = open('data.pkl', 'wb')
# Pickle dictionary using protocol 0.
pickle.dump(data1, output)
# Pickle the list using the highest protocol available.
pickle.dump(selfref_list, output, -1)
output.close()
实例 2
import pprint, pickle
#使用pickle模块从文件中重构python对象
pkl_file = open('data.pkl', 'rb')
data1 = pickle.load(pkl_file)
pprint.pprint(data1)
data2 = pickle.load(pkl_file)
pprint.pprint(data2)
pkl_file.close()
1.5.1.2 pickle.loads()
当我们要把对象从磁盘读到内存时,可以先把内容读到一个str
,然后用pickle.loads()
方法反序列化出对象,也可以直接用pickle.load()
方法从一个file-like Object中直接反序列化出对象。我们打开另一个Python命令行来反序列化保存的对象:
>>> f = open('dump.txt', 'rb')
>>> d = pickle.load(f)
>>> f.close()
>>> d
{'age': 20, 'score': 88, 'name': 'Bob'}
变量的内容又回来了!
当然,这个变量和原来的变量是完全不相干的对象,它们只是内容相同而已。
Pickle的问题和所有其他编程语言特有的序列化问题一样,就是它只能用于Python,并且可能不同版本的Python彼此都不兼容,因此,只能用Pickle保存那些不重要的数据,不能成功地反序列化也没关系。
1.5.2 JSON
如果我们要在不同的编程语言之间传递对象,就必须把对象序列化为标准格式,比如XML
,但更好的方法是序列化为JSON
,因为JSON
表示出来就是一个字符串,可以被所有语言读取,也可以方便地存储到磁盘或者通过网络传输。JSON
不仅是标准格式,并且比XML
更快,而且可以直接在Web
页面中读取,非常方便。
Python内置的json模块提供了非常完善的Python对象到JSON格式的转换。我们先看看如何把Python对象变成一个JSON:
>>> import json
>>> d = dict(name='Bob', age=20, score=88)
>>> json.dumps(d)
'{"age": 20, "score": 88, "name": "Bob"}'
dumps()
方法返回一个str,内容就是标准的JSON。类似的,dump()方法可以直接把JSON写入一个file-like Object。
要把JSON反序列化为Python对象,用loads()
或者对应的load()
方法,前者把JSON的字符串反序列化,后者从file-like Object中读取字符串并反序列化:
>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}'
>>> json.loads(json_str)
{u'age': 20, u'score': 88, u'name': u'Bob'}
有一点需要注意,就是反序列化得到的所有字符串对象默认都是unicode而不是str。由于JSON标准规定JSON编码是UTF-8,所以我们总是能正确地在Python的str或unicode与JSON的字符串之间转换。
1.5.3 JSON进阶
Python的dict对象
可以直接序列化为JSON的{}
,不过,很多时候,我们更喜欢用class表示对象,比如定义Student类,然后序列化:
import json
class Student(object):
def __init__(self, name, age, score):
self.name = name
self.age = age
self.score = score
s = Student('Bob', 20, 88)
print(json.dumps(s))
运行代码,毫不留情地得到一个TypeError:
Traceback (most recent call last):
...
TypeError: <__main__.Student object at 0x10aabef50> is not JSON serializable
错误的原因是Student
对象不是一个可序列化为JSON的对象。
仔细看看dumps()
方法的参数列表,可以发现,除了第一个必须的obj
参数外,dumps()
方法还提供了一大堆的可选参数
这些可选参数就是让我们来定制JSON序列化。前面的代码之所以无法把Student类实例序列化为JSON,是因为默认情况下,dumps()方法不知道如何将Student实例变为一个JSON的{}
对象。
可选参数default
就是把任意一个对象变成一个可序列为JSON
的对象,我们只需要为Student专门写一个转换函数,再把函数传进去即可:
def student2dict(std):
return {
'name': std.name,
'age': std.age,
'score': std.score
}
print(json.dumps(s, default=student2dict))
这样,Student实例首先被student2dict()
函数转换成dict,然后再被顺利序列化为JSON。
不过,下次如果遇到一个Teacher
类的实例,照样无法序列化为JSON。我们可以把任意class
的实例变为dict
:print(json.dumps(s, default=lambda obj: obj.__dict__))
因为通常class
的实例都有一个__dict__
属性,它就是一个dict,用来存储实例变量。也有少数例外,比如定义了__slots__
的class。
同样的道理,如果我们要把JSON
反序列化为一个Student
对象实例,loads()
方法首先转换出一个dict对象,然后,我们传入的object_hook
函数负责把dict转换为Student实例:
def dict2student(d):
return Student(d['name'], d['age'], d['score'])
json_str = '{"age": 20, "score": 88, "name": "Bob"}'
print(json.loads(json_str, object_hook=dict2student))
运行结果如下:
<__main__.Student object at 0x10cd3c190>
打印出的是反序列化的Student实例对象。