编码转换
平常在写python代码时经常遇到输出乱码,unicode、gbk、utf-8等等什么时候该用哪个确实很烦。多数情况在头部声明了coding:utf-8似乎并没起作用?
其实不是这样的。讲讲我自己对于 decode 和 encode 的理解吧
decode 与 encode
decode 将某种编码解码成 unicode
encode 将 unicode 编码成某种编码
在我的理解中 unicode 相当于中间码。当需要把使用 gbk 编码的网页源码用python程序输出时其文本往往是乱码,这时候可以先把 gbk decode成unicode,再把 unicode encode成 utf-8
html.decode('gbk').encode('utf-8')