Base64编码和解码原理及模块应用

背景介绍

  • base64的作用是以可见字符的形式对非纯文本文件进行编码转换, 简而言之就是用可见字符集中的字符替换原有的二进制文件.

  • base64编码之所以叫base64是因为这个<可见字符集>是由64个可见字符构成.例如:

    • ['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '-', '/']

工作原理

  • 对原有二进制数据进行分组, 分组方式为第三个Byte为一组, 也就是说一组为24个bit.
  • 对每组的24个bit(3Byte)再进行分组,分为4组, 每组6个bit.
  • 因为每组是6个bit, 那么6个bit的二进制序列最多表示64种可能性, 正好由我们的<可见字符集>中的字符表示每种序列.
  • 如果原有二进制数据不是3Byte的整数倍, 那么剩下的1个或2个byte 我们使用\x00进行补充,然后再蚝编码, 我们会发现行尾加上一个或两个= 号,代表表示补充了多少字节\x00
base64分组示意图

代码示例

  • 编码
import base64

#如果有中文,那么只能入到字符串中, 不可是直接b'Hello,大亮'
a_str = 'Hello, 大亮'
#纯ASCII字符可以直接以字节码的形式输出 b'Hello, Mark'
b_str = b'Hello, Mark'
#base64只能对字节码进行编码,所以我们需要先对str进行编码
a = base64.b64encode(a_str.encode('utf-8'))
#由于b_str直接用字节码表示,所以可以直接编码
b = base64.b64encode(b_str)

#打印两个字节码的base64的编码表示
print(f"<{a_str.encode('utf-8')}>'s base64 code is: <{a}>")
print(f"<{b_str}>'s base64 code is: <{b}>")

'''
#Output:
<b'Hello, \xe5\xa4\xa7\xe4\xba\xae'>'s base64 code is: <b'SGVsbG8sIOWkp+S6rg=='>
<b'Hello, Mark'>'s base64 code is: <b'SGVsbG8sIE1hcms='>
'''
  • 解码
import base64
c = b'SGVsbG8sIOWkp+S6rg=='
d = base64.b64decode(c)
print(f"the Byte code of <{c}> is: <{d}>")
print(f"the string of <{d}> is <{d.decode('utf-8')}>")

'''
OUTPUT:
the Byte code of <b'SGVsbG8sIOWkp+S6rg=='> is: <b'Hello, \xe5\xa4\xa7\xe4\xba\xae'>
the string of <b'Hello, \xe5\xa4\xa7\xe4\xba\xae'> is <Hello, 大亮>
'''

安全的URL base64编码/解码

在标准的base64编码中可能出现字符+/ 号, 但是这些符号在URL中为特殊字符, 所以base64模块还支持"url_safe"的方式进行编码和解码, 其实就是将字符 +/分别替换为-_ .

代码

import base64
a_str = 'Hello, 大亮'

b = base64.b64encode(a_str.encode('utf-8'))
c = base64.urlsafe_b64encode(a_str.encode('utf-8'))
#标准编码
print(b)
#url_safe编码
print(c)

```
OUTPUT:
b'SGVsbG8sIOWkp+S6rg=='
b'SGVsbG8sIOWkp-S6rg=='
```
#解码方法为:  base64.urlbase64.urlsafe_b64decode(s)   
#同样, 解码也是只能解码字节码, 不能解码str.

同样=号也是URL中的关键符号, 所以在URL应用中, 很多情况是把编码后的base64编码末尾的=号省略

如果要解码省略了=号的base64编码, 我只需要判断编码是否能被4字节整除, 如果不能整除, 我们就可以推算出该编码省略了几个=号, 我们人工补上, 再进行解码即可

代码如下

def safe_base64_decode(s):
    n = len(s) % 4
    s = s + b"=" * n
    return base64.b64decode(s)

Base64的目的就是把二进行文件转换到纯文本字符串, 以便于在某些特殊场景传输使用, 常用场景为: URL, Cookie, http页面.

本文内容主要来源于廖雪峰老师的博客, 仅作为个人学习笔记

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 每个文本编辑器都有默认的编码方式(比如 UTF-8 编码),当我们保存文档的时候,可以选择编码方式,如果没有特意选...
    _于曼丽_阅读 1,555评论 0 1
  • Base64编码由来 Base64最早是用来解决电子邮件的传输问题。 传统的电子邮件是1982年定下技术规范的,详...
    Ashton阅读 2,611评论 0 6
  • 了解CTF的朋友们,肯定对一种题型不陌生——Misc,Misc里面有各种各样的编码,眼花缭乱的文本通过层层解码后得...
    Ackerzy阅读 11,839评论 1 30
  • 经常听到有人说:我想考驾照,我想考会计,我想学英语,我想怎么怎么样。身边经常会有这样的人,不止一次的听到他想做什么...
    黑夜的猫儿阅读 1,216评论 1 4
  • 亲爱的兜, 今天去上课的路上,我们做了一道数学题,一道关于幸福的数学题。我问你一天24小时,你有多少时间是幸福的?...
    蔡新花阅读 209评论 1 0