1、Base64编码原理
下图为Base64编码索引表:
字符选用了"A-Z、a-z、0-9、+、/" 64个可打印字符。数值代表字符的索引,这个是标准Base64协议规定的,不能更改。
2、关于编码和解码
- 编码:由二进制转到字符成为Base64编码,所谓Base64编码就是将所有二进制数据转换为Base64字符的过程。
- 解码:由字符转化为二进制的过程,所谓Base64解码就是将Base64字符转到二进制的过程。
3、关于ASCII码表
下图为国际上标准的ASCII码表:
我们知道所有的可打印字符都有其对应的ASCII码,如“M”对应的ASCII码为01001101,字符“z”对应的ASCII码为01111010,我们知道,Base64字符最多能表示6bit(2^6=64),而一个字符占一个字节(8bit),所以3个字符可用Base64的4个字符表示(6和8的最小公倍数为24),所以对于一个字符串来讲,每次进行Base64编码时,都是已三个字节为单位进行转换(三个字节恰好可以用4个Base64字符表示),对于不够三个字节的情况,即当一个字符串的长度对3取余的余数为1或者2时,可以用两个Base64字符表示一个普通字符,或者用三个Base64字符表示两个普通字符,普通字符通过ASCII码转换为二进制时,为8bit,而两个Base64字符转换为二进制时为12bit,如何转换呢?根据规则,需要在普通字符的二进制表示的末尾用0补齐12bit之后,再进行Base64字符的转换,字符串的转换规则为:先将普通字符串参照ASCII码表全部转换为二进制,从左到右,每3个字节为一组进行转换,每3个字节(3个普通字符)对应4个Base64字符,对于末尾剩余一个8bit(剩余一个字符)的情况,可以用2个Base64字符表示,需在其末尾用0填充补齐12个bit,再将这12个bit位用两个Base64字符表示,对于末尾剩余16bit(剩余两个普通字符)的情况,可以用3个Base64字符表示,需在其末尾用0补齐18个bit,再将这12个bit位用两个Base64字符表示,因为Base64字符的最小单位是4个字符一组,在转换后,如果Base64编码字符串的长度不是4的倍数,需在在字符串后面用“=”号填充,所以Base64字符串只可能在最后出现一个或者两个“=”号,不可能在中间出现“=”号,也不可能出现3个“=”号的情况。
4、一个例子
注:图表中蓝色背景的二进制0值是额外补充的
Hello!! Base64编码的结果为 SGVsbG8hIQAA 。最后2个零值只是为了Base64编码而补充的,在原始字符中并没有对应的字符,那么Base64编码结果中的最后两个字符 AA 实际不带有效信息,所以需要特殊处理,以免解码错误。
标准Base64编码通常用 = 字符来替换最后的 A,即编码结果为 SGVsbG8hIQ==。因为 = 字符并不在Base64编码索引表中,其意义在于结束符号,在Base64解码时遇到 = 时即可知道一个Base64编码字符串结束。
5、应用
Base64编码本质上是一种将二进制数据转成文本数据的方案。对于非二进制数据,是先将其转换成二进制形式,然后每连续6比特(2的6次方=64)计算其十进制值,根据该值在上面的索引表中找到对应的字符,最终得到一个文本字符串。Base64编码主要用在传输、存储、表示二进制等领域,还可以用作简单的加密,但只是一眼看上去不知道什么内容罢了,但可通过其编码规则对其进行解码。