Brotli算法介绍
Brotli 是 Google 推出的开源压缩算法,通过变种的 LZ77 算法等方式进行数据压缩,与其他Gzip、Zip压缩算法相比,它有着更高的压缩效率,性能也比我们目前常见的 Gzip 高17-25%,Brotli算法可以帮我们压缩客户端上埋点数据上报,可以减少存储空间的成本费用;还可以对日志文件进行压缩。但Brotli 压缩只在 https 下生效,https中服务端通过Accept-Encoding告诉客户端支持哪几种压缩算法,客户端通过Content-Encoding 里面告诉服务端当前内容用了哪种压缩算法进行压缩,这样子服务端就可以知道才有哪种解压算法进行解压。因为 在 http 请求中 request header 里的 Accept-Encoding: gzip, deflate 是没有 br 的。
Brotli的优点
- Brotli压缩数据源和log源文件,压缩效率都比Gzip、Zip高。
- Brotli可以自己分配缓存字节大小、配置压缩质量等参数,配置灵活。
- Brotli可以对Zip文件进行二次压缩。
Brotli的不足
- Brotli对于加密后的log文件压缩,压缩率并不高。
- 自身分配的buffer的不够大时候,压缩较大的源文件时候耗时长。
Brotli算法实战
Brotli开源网站
- google开源在github网站上,上面支持c、go、java、python、scripts、js等绝大部分的开发语言,涵盖了H5、移动端、服务端等多端使用功能。
brotli开源地址
不同编译(Android为例)
-
开源网站上已经根据不同语言进行分类,剩余根据自己编译工具区别进行底层C语言的链接、编译即可,我这里使用的是Android.mk来进行链接、编译(图一)。
图一 -
抽取开源网站对应的目录下的c++文件,在module里面进行java和C++方法的映射开发。图二是native层,图三是C++。
图二
图三
注意:这里需要有一点的ndk开发基础才可以理解整体链接、编译。
SDK功能封装
-
这里我自己将业务常用的功能都封装成接口保留出去,业务侧需要关注的功能点(图四):
<一>对原始的数据流进程压缩/解压缩(compressBytes/decoderByteArray函数),返回值为压缩后的二进制流。
<二>对文件自身进行压缩/解压缩(compressFile/decoderTargetFile函数),结果通过callback返回对应文件所在路径。
图四
数据压缩对比
-
这里我通过App做了Gzip压缩和Br压缩,存储在对应的app存储目录中,下面可以明显看出相同br算法比Gzip算法在压缩率上更优(图五),数据越大优势越大,这里我压缩率的配置还是选择中等情况(压缩率越高,压缩所需时间越长)。
图五 -
app的存储目录上可直观看出文件大小差异的(图六)。
图六
知识扩展
- 现在我们最熟悉的三方开源库OKHttp也支持Brotli的压缩算法,在请求信息和响应数据上进行压缩,可以减少网络传输所需时间。
- 数据埋点的存储一直都是占用存储费用的大头,如果可以才有Brotli压缩算法,把压缩后的字节流入库,在数据分析时候再通过解压后才采集真实数据做统计,这样可以节省存储空间和存储空间所需要花费的金额。