全面拥抱unicode(Python3.0)

我们知道,Python2.X版本的字符串有两种:字符串和Unicode字符串。因为这两种字符串类型,导致无数的本地化应用出现字符串类型的错误。而现在,Python3.0的字符串全部采纳Unicode方案,并强化了b类型字符序列概念,并将字符序列和字符串进行了区分,不能执行+操作。

本地化编程

这个变化不但解决了长久以来的字符串兼容问题,而且让我们在编程过程中可以使用非英文字符作为变量名,如下:

In [1]: 打印函数 = print

In [2]: def 测试函数(变量):  # 注意,函数的括号必须是半角的,也就是英文输入法下的括号
   ...:     打印函数(变量)
   ...:     

In [3]: 名字 = 'Python3要翻天'  # 空格、等号和引号也必须用半角的

In [4]: 测试函数(名字)
Python3要翻天

虽然在实际编程中,大部分情况下都使用英文作为变量名,但是不排除在教育行业以及本地化项目中使用这种编程风格。

类型区别

虽然全面使用了unicode字符串,但是在Python解释器中,其类型的名称已经改成了str,以表示其普遍性。
字符串和字符序列的类型区别如下:

In [10]: a = '1'

In [11]: a.__class__
Out[11]: str

In [12]: b = b'1'

In [13]: b.__class__
Out[13]: bytes

In [14]: a + b
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-22-f96fb8f649b6> in <module>()
----> 1 a + b

TypeError: Can't convert 'bytes' object to str implicitly

使用区别

字符串和字符序列被区分成文本和数据,因此,在程序内部交互中,使用字符串更加方便,一旦需要进行IO交互,则可能会使用到字符序列了。不过,大部分接口支持接受字符串作为输入,并自动将其编码为默认编码的字符序列。
示例如下:

In [15]: sys.getdefaultencoding()  # 获取平台的默认编码
Out[15]: 'utf-8'

In [16]: with open('test.file', 'w') as f:   ## 默认编码为平台的默认编码
   ....:     f.write('测试文本')
   ....:     

In [17]: with open('test.file', 'wb') as f:  ## 直接写入字符序列,不用理会编码问题
   ....:     f.write('测试文本'.encode('utf-8'))
   ....:   
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,026评论 19 139
  • 关于 Swift 重要这个文档所包含的准备信息, 是关于开发的 API 和技术的。这个信息可能会改变, 根据这个文...
    无沣阅读 4,397评论 1 27
  • 大脑不是用来思考的,它真正的作用在于避免思考。大脑并不擅长思考。举个例子:我想阅读,但大脑不想阅读,因为阅读需要思...
    Hwn9909阅读 1,031评论 0 0
  • 行走的月亮 在云朵里穿行 散落在迷雾里的万家灯火 缠绵悱恻 孤单是一杯酒 有时迷乱有时黯然神伤 流浪的故事 在孤寂...
    暖意人生1阅读 281评论 4 6