《区分: 编码方式 字符集 Unicode UTF-8》
有一个疑问:用多种转换工具(比如站长工具)试了,“汉”的utf-8编码并不是E6B189,而是和Unicode一样的数字,这是为什么?
编码方式对比:
编码方式 | ASCII | Unicode | UTF-8 |
---|---|---|---|
二进制表示字母‘A’ | 01000001 | 00000000 01000001 | 01000001 |
二进制表示中文‘中’ | 01001110 00101101 | 11100100 10111000 10101101 | |
十六进制形式 | \u4e2d | b\xe4\xb8\xad | |
编码范围 | 只有英文 | 所有语言 | 所有语言 |
一个字符占字节数 | 1 | 2(少数偏僻字4) | 英文1,中文3(少数偏僻字4-6) |
特点 | 统一,英文就在ASCII前面补一个字节 | 节省,英文跟ASCII一样只有一个字节 | |
用处 | 内存中,服务器中,比较统一 | 保存在硬盘时,传输时,需要节省 |
python3中的str与bytes:
(ASCII和utf-8操作方式类似)