23.讲讲对unicode, gbk, utf-8等的理解,python2.x是如何处理编码问题?

  • unicode编码:为了解决各个国家的语言的存储,引进的unicode码,包括UCS2,UCS4,UTF-8,UTF-7等
  • gbk:和unicode不一样的编码方式,常用的为gbk-2312
  • utf-8: UTF-8 使用 1-4 个字节来存储单个字符,应该是目前最流行的字符集。Linux 默认字符集就是UTF-8。既解决了大多数语言的编码方式,又避免了简单字符存储对空间的浪费
  • python 2.x需要在文件上方声明文件的编码方式# -- coding: utf8 --,可以通过str.decode/str.encode处理字符串的文本编码
    保证 python 编辑器的编码正确,或使用 u’中文’保证被转换成 unicode 编码,推荐使用sys.setdefaultencoding('utf-8')来保证我们的编码
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容