今天学习的是字符串和编码。
主要了解到四种编码形式。ascii、unicode和utf-8,还有python的字符串形式str。由于unicode编码形式比较占用储存空间,所以转换成可变长编码的utf-8编码。不使用ascii的原因是它无法编码汉字。
python使用的是str字符串,那么如果要将它转化为十进制编码形式,那么就需要用ord命令,括号中要加单引号,如果要将十进制编码形式转化str形式的字符,就要使用chr命令。
如果要保存或者在网络上传输python的字符串,就要将其转化为bytes形式。就要使用encode()命令,在括号中加入前面字符的编码格式,为避免麻烦,以后一直用utf-8。
如果要将bytes转化为str,就要使用decode命令。括号中依旧用utf-8。如果有bytes中有少量无法解码的字节,使用errors = ‘ignore’命令即可忽略无法编码部分。命令放在decode括号里的utf-8后。
len命令可以计算str中的字符数和bytes中的字节数。
当源代码中包含中文时,一定要指定保存为utf-8编码。与此同时,在文本编辑器中也要选择without BOM编码。
格式化字符的输出要使用%符号。基本使用方法和/类似,可以类比。如果记不住常用的,可以先使用%s占位符。字符串中有几个占位符,后面的局面中就要有几个用来替换的变量或者值。如果只有一个。括号和单引号都可以省略。