一、视频的组成
视频是由一帧一帧的图像组成,比如4K@60fps的视频码流,我们可以算一下它的数据量:
我们拿RGB的数据源作为例子:
8bit:4096(宽) * 2304(高) * 3(每一帧的数据量) * 60(每秒帧数) * 60(60秒) = 96GByte
如果视频不进行压缩,则数据量巨大,不利于存储与网络传输。
二、视频压缩的基本原理
视频图像压缩编码通常基于两个基本原理:
压缩的基本原理是去冗余,视频中如果每一帧图像都是原图,会有冗余信息,冗余信息来源:
(1)利用视频信号的统计特性:视频信号相邻帧之间、相邻像素之间、相邻行之间存在较强的相关性,视频信号中存在大量的冗余,这些冗余信息在压缩后可以无损的恢复;
这里做一下说明,因为视频是由一帧一帧的图像组成,相邻帧之间的图像细节变化不会很大(帧间预测压缩编码的基础)。同帧图像相邻行之间、相邻宏块、相邻快之间也具有相似性(帧内编码的基础);由于这些相关性,为数据压缩提供了可能;这里需要注意的一点是,利用统计特性压缩不会导致数据细节的丢失哦。
视频信号的冗余存在于结构和统计两方面:
(a)结构的冗余表现为视频信号中存在很强的空间(帧内)和时间(帧间)的相关性。帧内预测与帧间预测的基础,只传输残差数据。
(b)信号统计的冗余度来自于信号概率密度分布不均匀(大部分集中在0附近),可以对数据集中的信号使用短码编码(熵编码)。
(2)利用人眼视觉的特性,在不影响人眼的主观感知特性的情况下,可以减少视频信号中的某些信号的精度。以一定的客观失真换取数据量的减小。
充分利用人眼的视觉特性是实现码率压缩有效的方法,人眼对细节分辨率、运动分辨率、对比度的分辨率都有一定的局限性。人眼对图像细节、运动和对比度三个方面的分辨能力相互依赖制约,可以利用这些特点采用自适应的编码技术,决定采样频率与量化精度。可以在不降低主观视频