WebRTC作为一个实时音视频传输技术,实时性是RTC技术的主要评判标准。在整个实时音视频系统中,对实时性影响最大的就是传输层。当今通信技术众多,但是都离不开两个基础的协议,即TCP(Transmission Control Protocol)和UDP(User Datagram Protocol)。
众所周知,TCP协议是一个在不可靠的网络上提供可靠的端对端数据传输协议。为了可靠性,TCP有三次握手、超时重传、流量控制和拥塞控制等机制,这些都都打打影响到了实时性。
虽然UDP不是可靠的传输协议,但是却保证了实时性,并且有极高的自由度。因此WebRTC技术中传输层采用的基于UDP协议的RTP协议(Real-time Transport Protocol,实时传输协议)。
RTP 协议
由于UDP是无序传输的,因此RTP协议主要的作用是记录UDP包的序号,方便应用层后续的操作。RTP协议的规范如下图所示。
下面将按照从左到右从上到下的顺序介绍各个字段的具体含义:
- Version(版本号):占2 bits,表示 RTP 的具体版本号;
- Padding(填充标记位):占1bit,若该值为1,则表示该包的尾部含有一个或一个以上的额外填充字节;
- Extension(扩展标记位):占1bit,若该值为1,则表示在RTP包的头部前面还存在一个扩展头部;
- CSRC(计数器):占4bits,表示在RTP头部后的计数器数量;
- Maker(标记位):占1bit,一个充当保留位的标记位,默认为0,一般没有作用;
- Payload type(负载类型):占7bits,表示RTP包的数据负载类型;
- Sequence number(序列号):占16bits,表示RTP包的序列号,接收方不经可通过序列号来重新排序RTP数据包,还可以判断是否丢包。RTP序列号并不是从0开始,而是从一个随机数开始,按发送的顺序加1进行顺序的标记;
- Timestap(时间戳):占32bits,表示当前RTP包中第一个字节的写入时间。
- SSRC(共享媒体流标识符):占32bits,表示共享媒体流的源,它是全局唯一的。
- CSRC(共享源标识符):占32bits,表示共享源,一般用在混音或混屏上,区别不同人的声音与画面。
在使用RTP包进行数据传输时,难免会发生丢包、乱序、抖动等问题。这些问题一般都是因为网络状态变化而出现的,例如网络线路质量问题导致丢包率高、传输的数据超过带宽的负载引起丢包问题和信号干扰引起丢包问题等等。虽然WebRTC对这些问题再底层都有相应的处理策略,但在处理这些问题之前,它首先需要让各端知道自己的网络质量,这就需要使用到RTCP协议。
RTCP 协议
RTCP(Real-Time Transport Control Protocol),即实时传输控制协议,它用于为RTP协议的服务质量提供保障,在传输层对音视频流进行同步并且检测网络质量。在进行RTP会话时,发送方和接收方都会周期性地发送RTCP包,该包中包含了已发送的数据包的数量和丢失包的数量等信息。由于RTCP包只包含一些控制信息,因此包的容量比较小,多个RTCP包可以跟随一个UDP一起传输。
RTCP有五种分组类型:
- SR(Sender Report)
- RR(Receiver Report)
- SDES(Sourse Description Items)
- BYE
- APP
其中SR与RR是最重要的报文类型,通过这个两个报文,各端可以知道自己的网络质量状况。
综上所述,RTC协议可以保证数据传输的实时性,RTCP协议可以保证数据传输的可靠性,WebRTC 将上述两个协议进行配合使用的确能在较小的开销内取得优秀的传输效率。