unicode和utf-8编码

unicode编码对所有字符都占16bit(2byte)
utf-8对英文数字占8bit,汉字16bit
所以处理编码时unicode由于比较统一所以处理较快
在保存文件时候utf-8更节省空间

python中的字符串在内存中是用unicode进行编码的
s.decode("UTF-8") : 把s字符串变成unicode字符串,unicode字符串才能做encode
s = "你好python"
s.decode("utf-8").encode("utf-8"):先decode成unicode再encode成utf-8

python2需要在前面加utf-8声明, python3不需要,因为python3全部按照unicode编码
所以python3中上面的例子可以是:
s = "你好python"
s.encode("utf-8")
python2中:
s = u"你好python"
s.encode("utf-8")

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容