C/C++学习笔记：base64的编码解码

什么是Base64？

base64是一种编码算法，允许将任何的字符转化为如英文字母，数字，加号和斜号组成的字符。你可以将汉字，标签符号，图像转换为“ 可读的字符串”，可以将其保存或传输到任何地方。

base64的应用场景

1. Base64常用于在通常处理文本数据的场合，表示、传输、存储一些二进制数据，包括MIME的电子邮件及XML的一些复杂数据。

2. 一些证书，特别是根证书，一般都是base64编码的。还有我们看到的那些密匙啊之类的！

3. 前端在实现页面时，对于一些简单图片，通常会选择将图片内容直接内嵌在页面中，避免不必要的外部资源加载，增大页面加载时间，但是图片数据是二进制数据，该怎么嵌入呢？绝大多数现代浏览器都支持一种名为 Data URLs 的特性，允许使用Base64对图片或其他文件的二进制数据进行编码，将其作为文本字符串嵌入网页中。

原文链接：https://blog.csdn.net/makenothing/article/details/81155960

base64的历史

Base64的历史可以追溯到很久以前，当时工程师争辩一个字节中应该有多少位。现在我们使用八位字节，但在此之前使用了七位，六位甚至三位字节。到八位编码被批准为标准时，许多系统已使用旧编码，但不支持“新标准”。这导致这样的事实，即在新旧系统之间的传输期间，一些数据只是丢失了。例如，邮件服务器在发送电子邮件时可能会丢弃第八位。此外，邮件服务器还有另一个问题-它们只能发送文本，而不能发送二进制数据（例如图像，视频，档案）。因此，以一种神奇的方式，聪明的人开发了一种算法来解决这些问题。当然，随着时间的推移，开发了其他二进制到文本的编码，但是由于其简单性，效率和可移植性，Base64成为最受欢迎的并且几乎在所有地方都使用。

安全性

因为base64不是一种加密算法，在任何情况下都不能用于“哈希”密码或 “ 加密” 敏感数据， 因为他是可逆算法。可以通过编码后的数据进行解码。base64只能用于编码密码功能的原始结果。粗略地说，就信息安全而言，Base64只是一些人不理解的外语。尽管如此，即使他们甚至可以通过使用在线翻译程序立即理解原始消息的在线翻译，从而理解编码消息的含义。

编码原理

维基百科的解释

**Base64是一种基于64个可打印字符来表示二进制数据的表示方法。由于[图片上传失败...(image-6a6f7-1588169753194)]

= 6，所以每6个比特为一个单元，对应某个可打印字符。3个字节有24个比特，对应于4个Base64单元，即3个字节可由4个可打印字符来表示。**它可用来作为电子邮件的传输编码。在Base64中的可打印字符包括字母A-Z、a-z、数字0-9，这样共有62个字符，此外两个可打印符号在不同的系统中而不同。一些如uuencode的其他编码方法，和之后BinHex的版本使用不同的64字符集来代表6个二进制数字，但是不被称为Base64。

转换的时候，将3字节的数据，先后放入一个24位的缓冲区中，先来的字节占高位。数据不足3字节的话，于缓冲器中剩下的比特用0补足。每次取出6bits(因为[图片上传失败...(image-2c574b-1588169753195)]

= 64)。，按照其值选择ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/中的字符作为编码后的输出，直到全部输入数据转换完成。

若原数据长度不是3的倍数时且剩下1个输入数据，则在编码结果后加2个=；若剩下2个输入数据，则在编码结果后加1个=。

总结
1. 以6bits为一个字符

2. 3个字节有24bits，即是对应4个base64字符

3. 若是数据不足3个字节，就要用0来补齐24个bits，也就是4个base64字符

4. 若是原始长度不是3的倍数，那么就要补上 " = ", 少一个字节补一个，少两个字节补两个。

编码算法

编码的核心方法


unsigned string base64_encode(const string &str){

    int i, j;
    
    //base64编码表
    std::string base64_table = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
                                 "abcdefghijklmnopqrstuvwxyz"
                                 "0123456789+/";
    
    
    //原始字符串的长度
    unsigned int str_len = str.length();
    
    //编码的base64的长度
    int base64_len = (str_len / 3 ) << 2； //大家一定很疑惑为什么这里有一个移位的存在，其实这里移位就相当于乘于2^2，因为乘法消耗的时间很大，所以就用移位来代替。
    
    /*开始判断，这个原始字符串的长度，是否是3的倍数*/
    if(str_len % 3 == 0){
        base64_len;
    }else{
        base64_len +=4; //这里也解释一下，为什么要这样做。base_len这个编译后的长度，本来把他当成了整除后的数没有算上余数，所以不管怎样。有余数就一定会多一个或两个字节，所以多的字节怎么办肯定要补上去，有人会问，那我直接加回余数就行了啊。嗯嗯嗯~， 记住，还要加上补上的" = "哦。

    //接下来我们申请编码存放的内存
    string base64_res   = (string )malloc(base64_len);


    //接下来就是主体了。包括对字符的编码，补位。(其实也是很简单的)

    for(i = 0, j = 0; i < base64_len-2; i+=4, j+=3;)
    
        base64_res[i] = base64_table[str[j] >> 2]; //第一个字节的前六位bits
        base64_res[i+1] = base64_table[(str[j] && 0x03) << 4 | (str[j+1] >> 4)] //第一个字节的后两位以及第二个字节的前四位bits
        base64_res[i + 2] = base64_table[(str[j+1] && 0x0f) <<2 | (str[j+2] >> 6)];//第二个字节的后四位bits，以及第三个字节前两位bits。
        base64_res[i + 3] = base64_table[str[j+2] && 0x3f]; //第三个字节的后两位bits。

    }

    
    //对上面没有整除完的str_len余数进行操作。(等号操作)
    switch(str_len % 3){
        case 2:
            base64_res[i - 2] = "=";
            base64_res[i - 1] = "=";
            break;

        case 1:
        
            base64_res[i - 1] = "=";
            break;
    }

    return base64_res;
}

解码的核心方法

。。。待续

总结：

base64是可逆的切记当成加密算法来使用，安全性不高。下次，我会继续学习算法，同时也分享大家，一起进步，一起成长。

最后

由于笔者的水平有限，若是读者有什么更好的方法，更加有效率的方法，欢迎留言批评指正。