Python 2.x 中 Unicode 的使用

由于 Python 在 1989 年被创造出来,Python 2 发布于 2000 年,这时 Unicode 还没有被广泛应用,所以 Python 2 中对于宽字符集的先天支持不够完善,使用过程中会有些容易误解的地方。本文以中文处理为例,说下对于宽字符集的处理。

先说结论:

  • 所有 Python 源文件的文件头,加上 # -*- coding: UTF-8 -*-# coding: u8
  • 所有源文件保存为 UTF-8 编码
  • 代码中所有带有中文的字面值字符串,都使用 Unicode 字符串,如:s = u'测试中文'
  • 从文本文件中读取的内容,如果需要对其中的字符做编辑处理,需要在打开文件时指定编码,或者当做字节流加载后,转为 Unicode 字符串处理。
  • 将字符串内容保存到文件时,先指定要使用的编码,将编码后得到的数据写入文件

细说

一、理想状态

近几年相对新一些的开发语言,已经对 Unicode 有了完善支持,个人理解整体的处理思路是这样的:
  1、通过对源文件字符编码格式处理能力的增强,编译器可以自动处理源文件的编码格式,或者默认约定为 UTF-8,来减少这方面带来的干扰;
  2、内存中的字符串,不存在所谓的编码问题,只是各个字符序号的一个序列
  3、所谓的 UTF-xx 编码这样的说法,只是用于存储和传输过程的需要。UTF 即 Unicode Transformation Format,定义也说明了其用途。

二、历史包袱

对于历史比较悠久的开发语言或者开发工具,由于历史原因,当年还没有 Unicode,所以语言缺乏对于 Unicode 原生的支持,一般会通过类库来做扩展进行支持。个人接触过的开发工具有:Delphi 7 及之前版本(之后的我没用过)中的 Object Pascal、Python 2。(插句题外话,突然觉得 C 当年是多么机灵,竟然没有引入字符串类型,没给自己找麻烦,一切处理交给类库,随时升级,啧啧啧……)
  以 Python 2 为例,当初的字符串是个字节流,其中每个字节表示一个 ASCII 码。而且实际上,即便一些字节超出 ASCII 范围,也一样能放到字符串中。所以,遇到宽字符集中的字符,一样可以用字符串表示,但是计算字符串长度、获取特定位置字符时,就会出现问题:

# Python REPL 环境中的测试
>>> s = '测试中文'
>>> print s, type(s), len(s)
测试中文 <type 'str'> 12

这时就需要一种支持 Unicode 的字符串类型作为弥补:

# Python REPL 环境中的测试
>>> s = u'测试中文'
>>> print s, type(s), len(s)
测试中文 <type 'unicode'> 4
三、引起混乱的原因

个人认为,在开发环境对 Unicode 支持不够完善的情况下,以下几方面都容易引入问题:

  1. 源文件编码格式(建议统一使用 UTF-8)
  2. 编译器对于源文件格式的识别和处理(这个作为代码编写者无法干预,只能按照规则执行)
  3. 编译器对于源码中宽字符字面值的理解
  4. 外部数据的格式,如:外部文件、从网络获取的数据

这几种情况中:
  1、2 可以通过规范约定,能扫清很多干扰。
  3 比较容易处理,按照语言规则,让编译器按照 Unicode 去处理字面值中的宽字符(如中文)的处理,类似这样

s = u'测试中文'
# 这样编写,字符串 s 就是按照 Unicode 处理其中内容的

4 是真正要注意的情况。这部分内容不受编程时代码的约束,完全决定于外部环境。对于对 Unicode 支持良好的开发环境,获取数据时,会保存到一个二进制字节流中,当转换为字符串表示时,需要指定字符编码,然后才能做转换,每一步都很清晰,而且拿到的字符串,一定是 Unicode。而在 Python 2 中,没有这样的强制要求,所以就需要自己处理:

# -*- coding: UTF-8 -*-
# 打开文件并读取内容
fp = open('file.txt', 'r')
data = fp.read()
print type(data)
# 根据数据实际的编码格式,转换为 Unicode 字符串,再进行使用
s = data.decode('gbk')
print type(s)
print s
四、规则约定总结

本文开头,作为结论提出了一些约定的规范做法,这里再做个总结。

  1. 所有 Python 源文件的文件头,加上 # -*- coding: UTF-8 -*-# coding: u8
  2. 所有源文件保存为 UTF-8 编码
  3. 代码中所有带有中文的字面值字符串,都使用 Unicode 字符串,如:
# -*- coding: UTF-8 -*-
myStr = u'测试中文'
print myStr
print type(myStr)
print len(myStr)
  1. 从文本文件中读取的内容,如果需要对其中的字符做编辑处理,需要在打开文件时指定编码,或者当做字节流加载后,转为 Unicode 字符串处理。
# -*- coding: UTF-8 -*-
# 打开文件并读取内容
fp = open('file.txt', 'r')
data = fp.read()
print type(data)
# 根据数据实际的编码格式,转换为 Unicode 字符串,再进行使用
s = data.decode('gbk')
print type(s)
print s
  1. 将字符串内容保存到文件时,先指定要使用的编码,将编码后得到的数据写入文件
# -*- coding: UTF-8 -*-
s = u'我的中文测试'         # 带有中文的 Unicode 字符串
data = s.encode('UTF-8')  # 使用指定编码,转成数据
# 将数据写入文件
fp = open('file.txt', 'w')
fp.write(data)
fp.close()
五、案例

Requests 是 Python 中一个强大的的网络库,在写一些爬虫工具时会用到。在网络请求完成后,会拿到一个 response 对象。一般情况,通过 response.text 返回的 Unicode 字符串就可以满足要求。
  最近写的一个爬虫工具,就在编码部分出了问题。网站一部分页面是 UTF-8 编码,另一部分是 GBK 编码。开始的时候并不知道,统一使用 response.text 来做处理,但是发现一些冷僻字出现了乱码。

问题原因
response 同时提供了 content 属性和 text 属性。其中:

  • response.content 属性类型为 str,保存着原始内容的字节流
  • response.text 属性类型为 unicode,是从 response.content 内容解码得到的
    网站的 UTF-8 部分页面,直接用 response.text 获取没有问题。但是对于 GBK 编码的那部分页面,恰巧冷僻字比较多,Requests 库在解码得到 response.text 的时候,内部使用了不完善的中文字符集,个人猜测可能是 GB2312 之类的,导致一些字符不能识别,需要用 GBK 解码解决。

解决方法

# 对于确定返回内容为 GBK 编码的情况,通过 GBK 解码,得到原始的 Unicode
response.content.decode('GBK')

参考链接:
Python中的str与unicode处理方法
Python编码格式说明及转码函数encode和decode的使用

(完)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容