webrtc处理视频丢包的机制

原文地址: https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/41611.pdf

感想: 本文延续了谷歌一贯的发文作风, 先在产线上验证, 然后有效果后再发文章, 文中的所有机制在webrtc中都有, 但是实际在工程上的实现会有非常多的细节, 在视频的低延时, 抗网损, 保质量等方面都需要很多的考量和权衡. 以后会慢慢去梳理这些部分的逻辑, 分享给大家

摘要

WebRTC是一个开源的实时交互式音频和视频通信框架。本文讨论了WebRTC中用于处理视频通信路径中数据包丢失的一些机制。讨论了各种系统细节，提出了一种基于时间层的自适应混合NACK/FEC方法。结果显示了该方法如何控制实时视频通信的质量权衡

介绍

WebRTC[1]是一个开源项目，它使web浏览器能够进行实时音频和视频通信。

本文介绍了一些底层的视频处理方面的WebRTC，使可靠的实时视频传输在有损网络中成为现实。众所周知，为交互式实时应用(如视频会议)提供高用户体验是很困难的。这些应用受到突变的网络条件(带宽、丢包、网络延迟)和低延迟实时编码要求的限制。

存在各种方法[2]处理多媒体传输期间的分组丢失，例如基于否定确认（NACK），前向纠错（FEC）[3] [4]和参考图片选择（RPS）[5]的分组重传。。这些通常通过编解码器的错误恢复方法[2]进行补充，例如内部刷新和错误隐藏。对于具有严格延迟要求的实时应用，可以使用混合NACK / FEC方案[6]来实现NACK方法的延迟成本和FEC方法的冗余成本之间的某种平衡。

本文介绍了WebRTC中当前用于处理数据包丢失的一组保护工具。尤其是，提出了一种具有时间层（TL）的自适应混合NACK / FEC方法，作为一种平衡视频质量，渲染平滑度（播放抖动）和端到端延迟的有用方案。 TL指WebRTC中使用的VP8 [7]编解码器中的时间可伸缩性功能。还讨论了各种系统细节和组件，以突出我们方法的适应性。

WebRTC中视频处理的系统描述将在第2节中讨论。第3节讨论用于量化系统行为的仿真和度量。 3.1-3.3节包含有关混合NACK / FEC，FEC和TL的一些结果和讨论。结论见第4节。

系统描述

image-20210222093224613.png

图1显示了WebRTC视频处理系统图。进入发送端的原始帧首先经过预处理，然后以给定的目标速率进行编码。随后，将帧打包，并且在适用时应用FEC编码器。 FEC是基于RFC 5109 [8]的XOR代码。在接收器端，打包的编码数据由FEC解码器处理，然后由抖动缓冲器（JB）处理。后者根据接收到的数据包构造编码帧，并估计视频抖动。帧完成后，将其发送到解码器，由解码器输出原始数据（YUV格式）。 JB还负责构建作为重新传输请求基础的丢失数据包列表。

我们将抖动建模为包括两个分量，一个是随机分量，另一个是相对于视频帧大小的分量[9]。然后，我们收集帧捕获时间和帧的接收时间的每帧统计信息，并将其建模为线性依赖于帧大小的差异。这种估算抖动的方法可以适应帧大小和链接容量的变化，而这通常会影响视频抖动。抖动估计适用于由于FEC解码而不是由于重传而延迟的帧。

发送方的媒体优化（MO）组件控制自适应混合NACK / FEC。 MO定期接收网络统计信息，并随每个传入的RTCP接收器报告（大约每秒）更新一次。这些网络统计信息包括可用带宽，丢包率和往返时间（RTT）。接收侧带宽估计器计算可用的网络带宽[9]。 MO还接收编码器统计信息，例如传入的帧速率和发送的实际比特率（视频比特率和FEC / NACK保护开销率）。 MO关于混合NACK / FEC的主要功能是设置FEC保护量，并以新的源速率（可用带宽减去估计的保护开销）更新编码器。

系统行为和结果

我们采用了离线模拟工具对系统进行了评估，该工具可以在受控环境中模拟各种网络条件。仿真工具充当发送客户端和接收客户端之间的传输模块，并且由一个通告网络传输延迟的队列组成。数据包丢弃器放置在队列之后，这可能造成使用GilbertElliot模型[10]从突发丢失模型得出的数据包丢失。在以下结果中，仅将完整的VP8比特流提供给解码器，因此对视频进行解码时不会出现错误/数据包丢失的情况，并且将接收器配置为等待所有必要的数据包。因此，视频质量主要受回放的平滑度和可用比特率影响。

测量以下定义的以下性能指标以表征系统的行为：

端到端延迟: 从文件读取帧到在接收器将其呈现回文件之前所花费的平均时间。
渲染标准偏差：渲染的两个连续帧之间的时间增量的标准偏差。为了获得最佳的时间质量，渲染增量应接近捕获的帧速率，且方差很小。
保护开销：定义为由于重传和FEC而导致的平均开销百分比（相对于总比特率）。这是所施加的视频保护使压缩视频信号降级的量度。

下面报告的模拟结果是在会话(?)场景上进行的，分辨率为640x360，分辨率为30 fps，动作范围为中低。该序列长约30秒，实验结果是多次运行后取的平均值。

混合NACK/FEC

WebRTC使用自适应混合NACK / FEC方法在时间质量（渲染的平滑度），空间视频质量和端到端延迟之间获得更好的折衷。我们方法的自适应方面是指发送方FEC量的动态设置，以及接收方的播放延迟。

NACK / FEC混合方法的成本是FEC的开销损失，如图2a所示。除此之外，与仅NACK方法相比，它具有明显的优势。图2b显示，将NACK和FEC结合使用时，平均端到端延迟会减少，因为平均等待重传的时间更少，尽管单个重传的等待时间没有改变。如图2c和d所示，渲染时间增量的标准偏差也显着降低。

如第2节所述，在MO中根据接收到的网络统计信息确定FEC量（保护级别）。特别地，FEC的量取决于RTT。当RTT较低时，可以重发数据包而不会造成严重的冻结。因此，FEC的数量可以减少，从而导致较小的延迟损失。在大型RTT中，延迟对时间质量的影响更大，因此不应减少FEC的数量。如图2a所示，对于RTT / 2 <〜50 ms，FEC开销减少了。

图2 – NACK和混合的NACK / FEC

对于不同的d(add)值，取决于网络传输延迟。实线表示NACK，虚线表示混合NACK / FEC。对于5％的数据包丢失率，突发长度为1，为500kbps。 a）保护开销。 b）端到端延迟。 c）渲染标准偏差。 d）仅针对混合NACK / FEC渲染标准差

播放延迟是在JB中控制的，用于权衡时间质量（渲染的平滑度）和端到端延迟。目的是延迟回放，以减少在等待重发数据包时视频被冻结的持续时间。但是，当RTT较大时，附加的播放延迟不太合适，因为单向延迟超过400 ms会严重损害通信[11]。因此，应根据不可恢复的丢包率u和估计的RTT选择额外的播放延迟。额外的播放延迟可以计算为

image-20210222094705582.png

K是最大可接受的端到端延迟，RTT / 2是对网络传输时间的估计，抖动是估计的抖动，Umin是数据包丢失的阈值。与在合理的时间内（例如十秒）计算的合理时间内接收到的数据包数量相比，不可恢复的丢失的比例可以估计为NACK和不合理地延迟接收的数据包数量。可以将不合理的延迟定义为至少比我们预期相关帧完成的时间晚RTT / 2。在图2b中可以看到增加的端到端延迟的成本，而在图2c和2d中可以看到增加的回放延迟的收益。图2中的“自适应”行对dadd使用上面的公式，其中K = 100 ms，Umin =0。其他行具有dadd = kRTT，其中k在{0，0.5，1}中。

多帧FEC

WebRTC中使用的FEC是XOR数据包级别的代码[8]。我们将代码表示为（k，m），其中k是保护组中视频数据包的数量，m是该保护组中FEC数据包的数量。 FEC的保护开销定义为PL = m /（k + m）。保护组中使用的最大帧数λ也是代码的特征。此数字是在MO中根据接收到的网络延迟和视频帧速率来动态确定的：λ〜max（1，min（fRTT，λo）），其中f是帧速率，λo是固定上限。

多帧FEC可以降低低比特率的FEC开销，在这种情况下，一帧FEC的粒度非常小（即每帧少量的数据包）。多帧FEC的另一个特点是，它在恢复损失方面通常比1帧FEC更有效，尤其是对于突发损失。也就是说，给定两个具有相似保护等级的代码，较长的代码通常比较短的代码具有较低的平均残留损耗。这是由于可以使用更长的FEC代码的生成器矩阵来恢复更多的损耗配置（参见图3）。然而，这种改善的恢复是以增加的FEC解码延迟为代价的。

额外的开销阈值控制用于FEC的实际帧数。多余的开销定义为实际开销（基于保护组中数据包的实际数量）减去目标开销（由PL确定）。因此，如果FEC生成器从MO接收到λ> 1，则FEC保护组中使用的实际帧数会增加（可能达到最大λ），直到多余的开销低于阈值。

图4比较了1帧FEC和多帧FEC。对于该比较，λ分别固定为1和6。从图4a和4b中可以看出，使用多帧FEC可以降低端到端延迟和渲染增量方差。对于此损耗模拟，MO中设置的FEC保护级别应使平均保护开销为〜20/25％。图4c显示了多帧FEC如何达到目标保护开销，而1帧FEC过冲并因此产生了额外开销，特别是对于较低的比特率范围（过多的开销在较高的比特率下减少，即，更多的数据包/帧）。在多帧情况下，较低的保护开销导致较高的PSNR /质量。

多帧FEC, 会引入额外延时

每帧2个数据包，保护开销为33％的示例（FEC数据包跟随其保护的源数据包）。 1帧FEC是每个帧中两个源数据包的XOR，而3帧FEC具有上面所示的6x3生成器矩阵。后者可以恢复更多的丢失配置，特别是使用（6,3）代码可以完全恢复大小小于等于3的任何连续丢失。

混合组合NACK/FEC 多帧FEC与1帧FEC。对于5％的丢包率，突发长度为2，RTT = 300ms； dadd =0。a）端到端延迟。 b）渲染标准偏差。 c）保护开销。

结合Temporal Layers的混合NACK/FEC

上面讨论的多帧FEC具有降低保护开销和改善对丢包率的恢复的潜力，但是当RTT不明显大于逆帧速率时，较长的FEC解码延迟会变得太昂贵。混合NACK / FEC与分层编码相结合，允许使用另一种机制来减少开销（例如，通过仅保护基本层帧），并提供了较低的端到端延迟与视频质量的附加折衷（较低的时空解析度）。在本文中，我们讨论了如何结合混合NACK / FEC使用时间层（TL）。

VP8中的时间可伸缩性[7]能够生成以速率为目标的时间可分离流。对于此处报告的结果，对于TL = 2，基础层的速率分配为60％，对于TL = 3，基层的速率分配为40％（分别为2和3个时间层）。时间模式结构具有同步帧（每8帧放置一次），这些同步帧用于在接收器处启用（不完整/丢失的）增强帧。

混合NACK / FEC + TL系统的操作如下：

UEP-FEC（不等错误保护）用于仅对基础层帧进行保护的情况。发送方仅重新传输属于基础层帧的数据包。
时间层ID和同步帧标志嵌入每个数据包的编解码器特定的RTP头[12]中，并在接收器/抖动缓冲器中提取.
完成了一种选择性的NACKing，仅对与基础层帧相对应的丢失数据包进行了NACK。如果在增强层帧中检测到丢失的数据包，则丢弃所有增强帧，直到接收到完整的同步帧。

混合NACK/FEC+TL系统

图5显示了TL = 1、2、3的混合NACK / FEC的性能指标。在这些比较中，FEC仅用在了最低层simulcast中。图5a和5b显示了较低的端到端延迟和渲染差异，以及图5c中的较低保护开销方面的显着收益。开销的减少是由于仅将FEC应用于基本层帧。开销减少大致对应于基础层比特率：对于TL = 2，约为60％，对于TL = 3，约为40％。

使用TL的权衡有两个组成部分：（1）在没有丢包的情况下的压缩效率损失（编解码器损失），以及（2）在渲染的视频中较低的时间分辨率（来自接收器丢失的增强帧）。掉落的增强帧造成的视觉质量损失很难量化。关于TL> 1的编解码器损失，至少在开销相对较高的情况下，我们可以预期，减少的FEC开销所带来的收益将弥补压缩效率的损失。这在图6中提出，图6显示了时间层下的编解码器损失。

零丢包场景下的图像PSNR值参数

图中指示了两组点：一组为〜600kbps，另一组为降低的比特率，对应于TL = 1时的保护开销为〜33％，〜（33 * 0.6）％，〜（33 * 0.4）％，2、3。 33％是图5c中TL = 1的示例开销（〜600 / 700kbps）。

总结和展望未来

在本文中，我们介绍了用于处理WebRTC中数据包丢失的视频处理工具的某些方面。性能指标用于量化丢包和延迟对网络的影响。提出了一种与TL相结合的自适应混合NACK / FEC方法，以控制整体视频质量，播放抖动和端到端延迟。尤其讨论了自适应播放延迟作为权衡渲染抖动和延迟的一种机制，并提出了两种方法（多帧FEC和TL）来降低保护开销成本。当考虑突发损失情况和相对较长的RTT时，结果表明这两种方法都有可能改善所有三个系统指标：更低的渲染抖动，更低的端到端延迟以及更高或类似的（空间）视频质量/ PSNR。可以从各种扩展中获得改进的性能，例如跨时间层更好地使用选择性NACKing，多帧FEC和UEP-FEC。这项工作的扩展还包括改进指标，以包括例如更好的抖动适应程度[13]。

参考文档

[1] http://www.webrtc.org/ ; http://code.google.com/p/webrtc/

[2] Y. Wang, S. Wenger, J.T. Wen, A.K. Katsaggelos, “Review of Error Resilient Coding Techniques for RealTime Video Communications,” IEEE Signal Proc. Magazine, vol. 17, no. 4, pp. 61-82, Jul. 2000.

[3] J, Korhonen, P. Frossard, “Flexible forward error correction codes with application to partial media data recovery”, Signal Processing: Image Communication 24, (2009), 229-242.

[4] F. Battisti, M. Carli, E. Mammi, and A. Neri, "A study on the impact of AL-FEC techniques on TV over IP Quality of Experience", EURASIP Journal on Advances in Signal Processing, 2011.

[5] S. Fukunaga, T. Nakai, and H. Inoue, “Error Resilient Video Coding by Dynamic Replacing of Reference Pictures”, Proceedings of IEEE Global Telecommunications Conf. (GLOBECOM), London, vol. 3, Nov. 1996, pp.1503– 1508.

[6] F. Zhai, Y. Eisenberg, T. N. Pappas, R. Berry and A. K. Katsaggelos, “Rate distortion optimized hybrid error control for real-time packetized video transmission,” IEEE Transactions on Image Processing, pp. 40-53, 2006.

[7] http://www.webmproject.org/; J. Bankoski, P. Wilkins and Y. Xu, “VP8 Data Format and Decoding Guide,” RFC6386 (Informational), Nov. 2011.

[8] Li, A., “RTP Payload Format for Generic Forward Error Correction,” RFC 5109 (Proposed Standard), Dec. 2007.

[9] H. Lundin, S. Holmer and H. Alvestrand, “A Google Congestion Control Algorithm for RealTime Communication on the World Wide Web,” IETF Informational Draft, April 2012.

[10] P. Ferre, D. Agrafiotis, T-K Chiew, A. Doufexi, A.R. Nix, D.R Bull, “Packet Loss Modelling for H.264 Video Transmission over IEEE 802.11g Wireless LANs”, in WIAMIS 2005.

[11] ITU-T G.114, February 1996.

[12] P. Westin, H. Lundin, M. Glover, J. Uberti and F. Galligan “RTP Payload Format for VP8 Video,” IETF Internet Draft, Jan 2013.

[13] S. Borer, “A model of jerkiness for temporal impairments in video transmission,” in Proc. Int. Workshop Quality Multimedia Exper. (QoMEX), Jun. 2010, pp. 218– 223.