时域指标
音频中采样率对应时域:你采不采样,音频模拟信号就在那里------->采样率:一秒采集多少模拟信号样本
视频中的帧率对应时域:你抓不抓图像,图像就在那里------->帧率:一秒抓取多少图像
音频中的时域指标是采样率
视频中的时域指标是帧率
音频处理是声波---(传感器)---->模拟电------->数字电---(扬声器)---->声波
视频处理是现实图像---(摄影设备)--->图片---(播放设备:帧播放)--->电影(这句话可能有问题,以后再说)
视频中的采样:
采样
采样是指模拟信号向数字信号转化的过程中,先把复合视频信号中的亮度和色度分离,得到YUV 或YIQ 分量,然后对三个分量分别采样并进行数字化,最后再转换成RGB 空间。通俗点讲,就是一个采样点里面包含了一组亮度样本(Y)和两组色差样本(Cr,Cb),无数个采样点组合起来就是我们所看到的最终图像。因此,每个采样点中亮度样本和色差样本的多少成了衡量一幅图像精细度的关键,样本数值越高,画面的精度就越高。常见的有4:4:4、4:2:2、4:2:0,比例越高,色彩信息越多,越精细,后期调色或者有抠像需求的空间也越大,相应的,比例越高,文件体积越大。
音频:
音频中叫采样率,是指把音频信号数字化(AD采样)后一个通道1秒钟有多少个样本,对应而来的就是原始的数据。如44.1kHz的采样率,就是指1个通道1秒钟有44.1k个数据,这数据可以是16位,也可以是24或者其他,这就是采样精度。
码率就是音频文件或者音频流中1秒中的数据量,如1.44Mbps,就是1秒钟内的数据量达1.44Mbits。
原始的音频数据和实际传输的音频流的大小一般不一致,是因为存在压缩算法这东东。压缩后的音频流一般是固定比特率,这样有利于稳定地传输。也可能是可变比特率,同样大小的文件能取得更好的压缩效果。
CD音质,一般2通道,原始音频数据1秒钟的数据量是44.1k162=1411.2kbits, 压缩成128kbps的MP3,1秒钟数据就变成了128kbits了。丢了少许一般人耳或者设备还原不了的细节,节省了大量的磁盘空间或带宽。
--
视频:
视频中对应时域的概念叫帧率,如电影的24fps,还有各种30fps,60fps,甚至高速摄影中的120fps,就是指1秒钟抓多少幅图像。耳朵比眼睛灵敏多了,眼睛还有视觉残留,所以这个帧率比音频采样率低太多了。但是图像细节更多,所以视频有尺寸大小,分辨率,也有采样精度(8b/10b)之类的区别。假设都是1920x1080的图像,30fps。图像原始的格式是RGB888,一秒钟的数据量就是(8+8+8)1920108030 = 1,492,992,000 bits。
同样视频也存在压缩算法,如H.264,压缩完1秒钟的数据就叫码率。假设H.264压缩1080p的视频,码率是10Mbps,就是说1秒中的数据量为101024*1024= 10,485,760 bits。
两者差别这么大,也是通过色彩空间转化,压缩,丢掉一些人眼感知不到的细节,换取磁盘空间或带宽。
总结
=====================
一般而言,采样率(帧率)越高,就能越真实低保留【原始模拟的音视频细节】。采样率(帧率)越高,码率就越高,能保留的【数字化后的音视频内容】细节就越多,还原出来的音质或者画质就越好。但是,技术是在不断进步的,现在5W的LED比20年前5W的白炽灯要亮太多了。所以得结合各种采样方式,压缩算法质量,甚至音视频特性来分析。