Base64编码
- 是一组相似的二进制到文本的编码规则
- Base64编码普遍应用于需要通过被设计为处理文本数据的媒介上储存和传输二进制数据而需要编码该二进制数据的场景。
- 在 JavaScript 中,有两个函数被分别用来处理解码和编码 base64 字符串:
- atob() 函数解码base-64编码的字符串数据。
- btoa() 函数能够从二进制数据“字符串”创建一个base-64编码的ASCII字符串。
ASCII 码 美标编码
- 1个字节有8个位,每个位可以表示0或1,1个字节可以表示256中状态
- 对英语字符与二进制位之间的关系,做了统一规定
- ASCII 码一共规定了128个字符的编码,用1个字节的后7位就够了,规定第一个位统一为0。英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。
Hex编码
将每一个字节表示的16进制表示的内容,用字符串来显示。
Unicode字符集
- 该字符集可以容纳100多万个符号,所有语言都可以用十六进制数唯一表示
- 码点对应的字符:U+597D = 好,597D代表的是16进制表示
- Unicode只规定了每个字符的码点,到底用什么样的字节序表示这个码点,就涉及到编码方法。utf-8/utf-16等编码都是unicode字符集的一种实现。
- Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”字的Unicode编码是6C49,而GB码是BABA。
- Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS
UTF
UTF(UCS Transformation Format)规范,常见的UTF规范包括UTF-8、UTF-7、UTF-16
UTF-32 编码
- 每个码点使用四个字节表示,字节内容一一对应码点。
- UTF-32的优点在于,转换规则简单直观,查找效率高。缺点在于浪费空间,同样内容的英语文本,它会比ASCII编码大四倍。
UTF-8编码
- UTF-8就是以8位为单元对UCS进行编码
- 它是一种变长的编码方法,字符长度从1个字节到4个字节不等。
- 对于单字节的符号,字节的第一位设为0,后面7位为这个符号的 Unicode 码。因此对于英语字母,UTF-8 编码和 ASCII 码是相同的
- 由于UTF-8这种节省空间的特性,导致它成为互联网上最常见的网页编码。
- 将16进制的unicode码按照utf-8的存储规则生成二进制,可以再转换成16进制,unicode的16进制与utf-8的16进制表示不相等。
-
unicode码的16进制表示可以通过特定的图表规则转换为utf8的二进制表示
HTML使用的编码
JAVA常用的编码
UTF-16
- UTF-16编码介于UTF-32与UTF-8之间,长度为2个字节或者4个字节。
- 基本平面的字符占用2个字节,辅助平面的字符占用4个字节。也就是说,UTF-16的编码长度要么是2个字节(U+0000到U+FFFF),要么是4个字节(U+010000到U+10FFFF)。
- UTF-16取代了UCS-2,或者说UCS-2整合进了UTF-16。所以,现在只有UTF-16,没有UCS-2。
js使用的编码
UCS-2
使用2个字节表示已经有码点的字符。UCS-2只是一个编码方案,js起初使用的编码,后来用UTF-16代替
UCS-4
UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码
GB2312-1980 国标编码
- 使用双字节表示一个中文字符,可以支持256*256=65536个字符,
- GB2312是GBK的一个子集。
- 共收入汉字6763个和非汉字图形字符682个,相当于收录都是简体中文,比较少
GBK-1995编码
- GBK 采用双字节表示,兼容GB2312,但不兼容BIG5。
- 共收录了21003个汉字
GB18030-2005
- 每个字符的编码可以是1、2或4个字节
- 其对GB 2312-1980完全向后兼容,与GBK基本向后兼容,共收录汉字70,244个
- 现在的PC平台必须支持GB18030,还收录了藏文、蒙文、维吾尔文等主要的少数民族文字
- 强制性标准
CJK编码
中日韩统一表意文字
BIG5-2003编码
每个汉字由两个字节构成
是针对繁体汉字的汉字编码,台湾地区常用,共收录13,060个汉字
encodeURI 编码
- 该方法不会对ASCII表中的字母和数字编码,同时也不会对ASCII中的标点符号编码 -_.~*’() 在URI中具有特殊含义的符号 ;/?😡&=+$,#同样不会被编码。
- 将特定字符的每个实例替换为一个、两个、三或四转义序列来对统一资源标识符 (URI) 进行编码 (该字符的 UTF-8 编码仅为四转义序列)由两个 "代理" 字符组成)。
decodeURI() 解码
该函数能解码由创建或其它流程得到的统一资源标识符(URI)。
encodeURIComponent编码
- 该方法相比encodeURI多编码URI中具有特殊含义的符号 ;/?😡&=+$,#
- 对统一资源标识符(URI)的组成部分进行编码的方法。它使用一到四个转义序列来表示字符串中的每个字符的UTF-8编码(只有由两个Unicode代理区字符组成的字符才用四个转义字符编码)。
decodeURIComponent
方法用于解码由方法或者其它类似方法编码的部分统一资源标识符(URI)。
escape 编码(已废弃)
escape生成新的由十六进制转义序列替换的字符串
unescape 解码(已废弃)
计算生成一个新的字符串,其中的十六进制转义序列将被其表示的字符替换。