计算机:8比特(位:bit)=1字节(byte);
ASCII:占一个字节,只有127个字母,美国人编制
GB2312:占2个字节,中国编码。
Unicode:占2个字节,通用标准。
UTF-8:可变长标准,英文占1个字节,中文占3个字节。
一般来说:服务器支持的是:Unicode编码标准。
浏览器支持的是:UTF-8编码标准。
ord():获取字符的整数表示
chr():获取整数的字符表示
#\u0000-\uFFFF:表示把十六进制的数字转化成字符。
print(ord('A'),chr(25991),'\u4e2d\u6587')
print(len('abcdefg')) //计算字符串的长度
print(len(b'abcdefg'))//计算字符串的字节列长度,b''表示内部的每一个字符占用一个字节
print('ABC'.encode('ascii'))//encode,把字符串按标准转换成字节流,一个字符占用一个字节
print('中文'.encode('UTF-8'))//通常用于想通过网络发送数据
print(b'ABC'.decode('ascii'))//decode,把字节流按其他标准转换成字符串
print(b'\xe4\xb8\xad\xe6\x96\x87'.decode('UTF-8'))//通常用于接收数据后转换存储
print(len('中文'.encode('UTF-8')))
上面输出:
65 文 中文
7//这个不一定是7个字节
7//这个表示占用了7个字节
b'ABC'
b'\xe4\xb8\xad\xe6\x96\x87'
ABC
中文
6