- 熵编码回顾:利用信息的统一冗余来进行数据压缩的无损编码方法
熵编码:
无损编码:解码后可无失真还原信源信息;
利用信源符号的概率特性(不同的信源符号概率不等),使编码后的信息尽可能接近信源的熵;
常见熵编码方法:
变长编码:哈夫曼编码、香农-费诺编码、指数哥伦布编码;(已经实现的解析H264码流结构中使用的大多数是定长编码和指数哥伦布编码)
算数编码;
预测残差数据必须要使用比指数哥伦布编码压缩效率更高的编码方法CABAC( Context-based Adaptive Arithmatic Binary coding),CAVLC( Context-based Adaptive Variable Length Coding)
熵编码的输入为帧内帧间预测的残差经过变换量化后的系数矩阵
对于一个4x4的矩阵,变换量化后通常呈现以下特性
大部分为0 ,不为0的只是少数部分
2.CAVLC
上下文自适应的变长编码:
用于亮度和色度预测残差的编码,以量化后的变换系数的形式;
变换系数矩阵的特征:
稀疏:矩阵元素以0为主;
非零系数集中于低频;
高频部分的非零系数大部分为±1;
非零系数个数同相邻块有关;
CAVLC的上下文模型:
编码非零系数的表格索引;
更新编码非零系数时的后缀长度
CAVLC的输入通常是4x4的系数矩阵,8x8用的较少,针对一整个像素块的编码
- CALVC的编码过程
编码需要的重要元素:
非零系数的个数(TotalCoeffs):取值范围为[0, 16],即当前系数矩阵中包括多少个非0值的元素;
拖尾系数的个数(TrailingOnes):取值范围为[0, 3],表示最高频的几个值为±1的系数的个数。
拖尾系数的符号:以1 bit表示,0表示+,1表示-;
当前块值(numberCurrent):用于选择编码码表,由上方和左侧的相邻块的非零系数个数计算得到。普通非0系数的幅值(level):幅值的编码分为prefix和suffix两个部分进行编码。编码过程按照反序编码,即从最高频率非零系数开始。(高频到低频反序来编码)
最后一个非0系数之前的0的个数(TotalZeros);
每个非0系数之前0的个数(RunBefore):按照反序编码,即从最高频非零系数开始;对于最后一个非零系数(即最低频的非零系数)前的0的个数,以及没有剩余的0系数需要编码时,不需要再继续进行编码。
系数矩阵Z形扫描
CAVLC对一个固定大小的系数矩阵进行编码,例如:
-
{
3, 2, -1, 0, 1, 0, 1, 0, -1, 0, 0, 0, 0, 0, 0, 0, }
扫描重排之后得到一维数组:[3, 2, 1, -1, 0, -1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]
4.编码过程
确定当前块值nC,选择coeff_token的码表;
根据非零系数个数TotalCoeffs和拖尾系数个数TrailingOnes,编码coeff_token;
编码拖尾系数的符号;(拖尾系数总共可能有0,1,2,3)个
编码拖尾系数之外的普通非零系数;(从最高频到最低频反向编码除了拖尾系数之外的普通的每一个非0系数,每一个普通非零系数都需要按照前缀和后缀两部分来进行编码)这一部分是整个编码过程中相对麻烦的
编码最末非零系数之前0的总个数;
编码每个非零系数之前的0的个数;(两个特殊情况:a,所有的0都被编码完成,b,最低频的非零系数前面所有的0都是不需要进行编码的)
还是不清楚普通的非零系数是如何进行编码实现的,level,前缀和后缀如何进行编码,以下通过实例写代码看看编码后产生什么结果
如何求最后一个非零系数前面的零系数的个数?
扫描重排之后得到一维数组:[3, 2, 1, -1, 0, -1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]
从后往前遍历,得到最后一个不为零的非零系数的下标idx,此处要求的是最后一个非零系数前面的零系数的个数:可以列出1个方程式
//coeff[idx]左边的零系数的个数为totalZeros,coeff[idx]右边的零系数的个数为16-idx-1,全部的零系数的个数=16-全部的非零系数的个数totalCoeffs
//16 - totalcoeffs = 16 - idx - 1 + totalZeros
=====> totalZeros = idx - totalCoeffs + 1;
编码过程:
确定当前块值nC,选择coeff_token的码表;(在H264官方文档的236页,先编码非零系数)
根据非零系数个数TotalCoeffs和拖尾系数个数TrailingOnes,编码coeff_token;
编码拖尾系数的符号;
编码拖尾系数之外的普通非零系数;
编码最末非零系数之前0的总个数;
编码每个非零系数之前的0的个数;
分为两种情况,totalCoeffs的值大于等于3或小于3,值的大小为0-16
编码前缀和后缀
前缀和codeword的关系在标准文档Table 9-6 239页
前缀:是几后面就补多少个0
体现上下文自适应的阈值公式在标准文档239页
//为什么叫做上下文自适应的二进制编码,除了coeffTokenMap,此处会对后缀长度进行更新,体现了上下文的思想
//更新的原则是刚刚编码的levels[idx]大于某一个阈值公式在标准文档239页,就suffixLength ++ 自增1
编码TotalZeros
VlcIndex的值是TotalCoeff(非零系数的个数)
Let the variable tzVlcIndex be equal to TotalCoeff( coeff_token ).
编码runBefore,也是由协议中定义的表格Table9-10来实现的
矩阵编码后的码流输出结果为
以上是CAVLC的编码过程,但是还未解决如何在H264码流中使用CAVLC对系数矩阵进行解析,以及如何完整的解析一个宏块
添加类Residual使CMacroblock类可以对残差数据进行解析和保存
在码流解析器中继续依赖解析residual,官方文档的76页
使用CAVLC将一个4x4亮度块变换矩阵从码流中解析成原始yuv
色度块、Intra16x16模式的解析
色度块、Intra16x16模式块的解析思想类似4x4亮度块:
- 依次解析numCoeff、trailingOnes、trailingSigns、levels、totalZeros、runBefore;
不同之处:
每个单元内系数数量最大值;
AC/DC是否分别解析;
nC值的计算方法;
不同分割模式的比较
不同颜色分量的比较
解析色度部分16x16,依据标准文档236页,nC=-1,nC=-1针对的不是4:2:0格式
DC模式