Python中的字符串和编码
搞清楚了ASCII、Unicode、UTF-8的关系后,我们总结下现在计算机系统通用的字符编码工作方式:
在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换成为UTF-8编码。
用记事本编辑时,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件。
Python中的字符串转换成byte数组
encode('编码')
使用方法
转成'gb2312'格式bytes类型(以字节为单位的类型)
'你好'.encode('gb2312')
回车得到结果
b'\xc4\xe3\xba\xc3'
转成'utf-8'格式bytes,也就同理了
'你好'.encode('utf-8')
回车得到结果
b'\xe4\xbd\xa0\xe5\xa5\xbd'
需要注意的是,转成bytes之后,每一个字符都只占用一个字节
将第二点反转一下,就是将bytes类型「解码」成对应编码的字符串
decode('utf-8')
:以'utf-8'方式解码
decode('utf-8',errors='ignore')
:将部分能解码的进行解码,其余部分直接忽略
示例
将gb2312的bytes进行解码
b'\xc4\xe3\xba\xc3'.decode('gb2312')
回车输出
'你好'
但是如果你输入错误的解码方式,会直接报错
>>> `b'\xc4\xe3\xba\xc3'.decode('utf-8)``
File "<stdin>", line 1
`b'\xc4\xe3\xba\xc3'.decode('utf-8)`
^
SyntaxError: invalid syntax
所以,记住你的编码方式,在解码的时候不要写错,其实,我们一般都使用utf-8方式
%(百分号)占位符的使用
几个示例:
示例一、
这个例子很多人搞不懂
%2d的意思是:如果你输入的是一位数,那么前方会补全空格,两位数以上则失效
%02d的意思是:如果输入的是一位数,那么前方会补全0,两位数以上则失效
print('%2d-%02d' % (3,1))
回车,输出
_3-01
注意:3前边那个下划线是我故意写的,为的是注意到那其实是有一个空格了
示例二、
'%s还给你钱%.2f人民币'%('小明',123.53)
回车输出
小明还给你钱123.53人民币
示例三、
小明的成绩从去年的72分提升到了今年的85分,请计算小明成绩提升的百分点,并用字符串格式化显示出'xx.x%',只保留小数点后1位:
print('小明成绩提升了%.2f%%'%((85-72)/72*100))
回车输出
小明成绩提升了18.06%
or
>>> a=72
>>> b=85
>>> scale=(b-a)/a
>>> scale
0.18055555555555555
>>> print('小明增长了%.2f%%'%(scale*100))
小明增长了18.06%