视频无参客观建设

一、视频质量评估的目的

背景:在实时互动无处不在的今天,视频质量是反映终端用户体验的重要指标。视频质量评估的目的是准确衡量出人眼对于视频内容的感知

源视频在经过采集编码传输解码等模块传输到人眼之后,会不可避免的引入一些压缩失真,严重的时候甚至会有绿屏、花屏、马赛克等问题。因此准确完备的评估视频画质质量成为一项重要的能力。

引入:不同场景和关注对象存在差异,对于直播终端用户而言,侧重于实时画质监控,对于视频编解码技术而言,关注画质算法版本之间画质表现的提升或回退。一方面,需要对线上实时用户进行体验评价和画质实时监控,另一方面需要对画质算法进行画质和性能评估,因此需要一套完整视频主客观评价体系VQA(Vdideo Quality Assessment)

二、视频质量评估的方法

在业界评估视频质量有两种常用方法:视频质量主观评价和视频质量客观评价

视频质量评价算法

1、视频质量主观评估:

1)简介:在受控环境下对视频图像的主观感受来对视频的质量进行评估。由于它是人对视频图像质量主观感受的直接反应,符合视频图像服务的最终目的,是所有评估方法的基础。

2)测试环境中的受控因素:观看距离、观测环境、测试序列的选择、序列的显示时间间隔等

3)测试流程:

常见的主观评估流程一般如下:

①选取有代表性的源视频序列(一般录制视频);

②优化后的视频序列/竞品视频序列;

③按照ITU标准设计主观打分;

④测试观看视频并打分;

⑤收集主观打分并剔除无效数据;

⑥整理数据并得出测试结论

3)主观指标: 分为MOS(Mean Opinion Score)DMOS(Differential Mean Opinion Score)两种,

其中主观MOS分描述的是视频绝对主观评价,属于无参考场景,直接评价移动端UGC视频内容质量。

主观DMOS分表示视频相对评价,属于有参考场景,对比相同内容下视频之间的差异

4)主观MOS分常用标准:ITU-T Rec BT.500 给出的操作范例保证了主观实验的信度和效度。将主观的视频感受投射到[1,5]的区间内,描述如下:

主观MOS分常用标准

(PS:ITU-T Rec BT.500 给出的建议是“成立≥15人的非专家组”,得到评分员对视频的标注后,先计算每个人和总体均值的相关性,剔除相关性较低的评分员后,再对剩余评分员的评价求均值。当参与评分的人数大于15时,足以将实验随机误差控制在可接受范围内)

2、视频质量客观评价

视频质量客观评估通过一些评估标准来量化视频质量,按照原始参考视频提供信息多少可以分为三类:全参考(Full Reference)、部分参考(Reduced Reference)、无参考(No Reference)

1)全参考(FR)

全参考评估依赖完整原始视频序列作为参考标准,比较前后的两段视频每个像素的差别,基于逐帧像素的PSNR(峰值信噪比)和SSIM(结构相似度)是比较常见的比较方法,其他VIF VMAF PEVQ其指标也为群参考指标,需要输入视频和输出视频才能得出评估结果,适用于离线测试,

缺点是主观拟合程度比较有限而且比较依赖参考视频,机型环境等测试条件等,测试应用场景也比较受限

举例:

①PSNR 值就可以表示失真视频相对于原片的失真程度。PSNR 计算复杂度小,实现速度快,但是受局部像素点的影响大,没有考虑到视频的结构信息,与人眼主观感受的相关性较低 ;

②结构相似性指数(Structural Similarity Index Measure, SSIM)试图模拟从场景图像中提取结构(Structure)信息的过程,然后同时考虑结构信息与亮度(Luminance)、对比度(Contrast)来衡量两个图像或视频之间的结构相似性,但该评价方式与人眼主观评价画质还是存在一定差异,真实的主观评价还会受人类视觉系统的一些重要的心理、生理因素的影响,如视频流畅度、视频包含的信息量、是否符合美学标准等;

③视频多方法综合评价(Video Multi-Method Assessment Fusion, VMAF)是 Netflix 提出的一个客观有参画质评价指标,通过 3 个基础指标同时提取空间域(同一帧画面内)图像特征和时间域(连续多帧画面间)相关性特征,其中 Visual Quality Fidelity(VIF)和 Detail Loss Measure(DLM)属于空域特征,Temporal Information(TI)属于时域特征,最终使用机器学习算法(SVM)将这 3 个基础指标融合成最终的画质分数 

2)部分参考(RR)

部分参考评估提取两段视频的一些特性,并依此给予它们评分。适用于完整的原始视频序列不可得的情况,这种评估介于 Full Reference 和 No Reference之间

3)无参考(NR)

在更广泛的业务场景中,由于待评价的原视频无法获取,也没有参考视频,无法使用有参的评估方法,因此需要无参考视频评价视频VQA。即无参考评估是在没有任何原视频的参考下进行评估,比较适合线上视频评估视频增强和视频合并测试等场景,缺点是评价的精度,准确性相比有参会低一些

举例:最初的无参 VQA 方法如 BRISQUE、VIDEVAL 等,是通过手工设计特征,然后用 SVM 等机器学习模型预测视频主观质量,在这个过程中,将人工标注的 MOS 分数作为监督,把画质评价问题转化为一个回归问题。随着深度学习的快速发展,基于神经网络的无参 VQA 算法逐渐成为主流,原因在于神经网络能自动且高效地提取特征,并将特征学习融入到模型训练的过程中,且深度学习引入了深度神经网络,具有多个隐藏层,能够学习视频中更抽象、更高级别的特征

3、视频主客观评价一致性衡量

1)指标定义:业内通常从客观模型的预测精度和预测单调性给出定义。预测精度描述了客观模型对主观评价的线性预测能力,相关的指标是 皮尔逊线性相关系数PLCC(Pearson Linear Correlation Coefficient)和 RMSE(Root Mean Square Error)。预测单调性描述了评分相对等级的一致性,衡量的指标是 斯皮尔曼等级相关系数SROCC(Spearman Rank Correlation Coefficient)。

2)标准及说明:①PLCC 的取值范围为 -1~1,值越接近0,表示视频的模型预测分数和人眼主观分数相关性越弱,值越接近 1 或 -1,表明视频的模型预测分数和人眼主观分数相关性越强;

②SROCC的取值范围为0~1,SROCC 值越接近 1,表明模型越能对一组视频的质量高低进行正确排序。例如:人眼主观对 5 个视频的质量排序为“1,2,3,4,5”,数值越大代表质量越好,若模型预测的质量排序也为“1,2,3,4,5”,则 SROCC 值为 1,模型对视频质量排序完全正确;若模型预测的质量排序为“1,3,2,5,4”,则 SROCC 值为 0.799,模型对视频质量排序的准确性降低。

三、当前可参考文档:

1)B站无参视频画质评价的研究与应用(B站):https://www.bilibili.com/read/cv26787690/

2)我们如何建立一套无参考视频质量评价体系(声网VQA):http://short.bigo.sg/QkAq0

3)无参考评估在云信的视频测试实践(网易云信):https://juejin.cn/post/6865622938926710797

4)无参考视频质量评估算法研发及落地实践(小红书):http://short.bigo.sg/QkAaq

5)深度解读字节跳动的画质评估工具:~https://www.infoq.cn/article/vsc9cclojx9mcotyurgthttps://mp.weixin.qq.com/s?__biz=MzU1NTEzOTM5Mw==&mid=2247512713&idx=2&sn=525ebd47bb4a8ecff2139bf8cf3dd260&scene=21#wechat_redirect

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容