一、使用 sys.setdefaultencoding() 方法设置默认编码格式
我们在编写 python 程序的时候,通常需要更改一下默认编码,因为 sys 默认的编码是 ascii 编码,可以使用命令 sys.getdefaultencoding() 证明这点,而项目中处理文本通常默认都是 utf-8 编码。而更改的方式十分简单,只需要 import sys 导入后,再使用 sys.setdefaultencoding('utf-8') 就可以了,如下所示:
但是需要注意的是,在使用 setdefaultencoding() 方法前,需要先 reload(sys) 一下。因为根据目前看到的资料显示,有一个叫做 site.py 的脚本是 python 解释器启动后,默认加载的一个脚本,而加载该脚本后,sys.setdefaultencoding() 方法就被删除了,因此无法调用并报了 AttributeError: 'module' object has no attribute 'setdefaultencoding' 的错误,解决的方法就是重新导入,即 reload(sys) 就可以了。另外还有一种方法是启动的时候使用命令:python -S 来启动 python,这时候就可以直接调用 sys.setdefaultencoding('utf-8') 方法,如下所示:
二、永久性的设置默认编码格式
方法1 :(不推荐)编辑 site.py,修改 setencoding() 函数,强制设置为 utf-8
首先我们要了解,python 默认设置的是 ascii 编码格式,就是在 site.py 中写好的,site.py 的源码如下:http://svn.python.org/projects/python/trunk/Lib/site.py
其中设置 ascii 为默认编码格式的代码段如下所示:
显然,如果我们修改 setcoding() 方法中的 "ascii" 为 "utf-8",就解决了问题。但是这种方法太过于粗暴,而且因为默认加载 site.py 会让该修改对所有环境生效,请谨慎使用
方法2 :(推荐)使用 sitecustomize.py 来修改编码
sitecustomize.py 会在 site.py 执行中被默认加载,那么可以在 sitecustomize.py 中设置,即 在新建的 sitecustomize.py 中编写 import sys 和 sys.setdefaultencoding('utf-8'),而因为 sys.setdefaultencoding() 方法是在 site.py 的尾部才被删除的,所以不会影响 sitecustomize.py 中的使用
site.py 中加载 sitecustomize 的代码如下:
三、设置 utf-8 默认编码的弊端
主流还是推荐使用 encode() 和 decode() 方法来解决编码问题
下面也有一个帖子,描述了使用 setdefaultencoding() 方法的弊端
https://blog.ernest.me/post/python-setdefaultencoding-unicode-bytes