前言
RTP/RTCP协议设计用来传输音视频数据,对应的RFC文档为:RFC3550,对应的中文版RFC3550中文版
RTP被定义为在一对一或者一对多的传输情况下工作,其目的是为了提供时间信息和实现流同步。RTP的典型应用是建立在UDP上的,也可以建立在TCP等其它协议之上进行工作,一般将其看作传输层的一部分,位于UDP层之上,应用层之下,它不保证数据传输的可靠性
RTCP为RTP提供服务质量保证,其主要功能为:服务质量的监视与反馈、媒体间的同步,以及多播组中成员的标识。RTCP协议是基于每隔一段时间给会话的所有参与者发送一些控制包的机制。RTCP包中包含有已发送的数据包的数量、丢失的数据包的数量等统计资料,从而各参与者可以利用这些信息动态的改变传输速率。
RTP数据包构成
RTP数据包一般由:Header+有效载荷数据:构成,Header一般为12字节,有效载荷数据则可以是音频数据,h264码流,PS码流等等
- RTP头部组成
头部一般至少包含12个固定字节,也包括若扩展干字节。
1字节 V(2bit)+P(1bit)+X(1bit)+CC(4bit) 2字节M(1bit)+PT(7bit) 3 4字节SN(序列号) 5 6 7 8字节timestamp(4字节) 9 10 11 12字节SSRC[13 14 15 16字节CSRC(4字节,可选 可以有多个,数量为前面CC的值大小)....] [扩展头部...当前面X==1时才有]
如下图片,其中当CC的值大于0时,CSRC为扩展字节。
1、版本号(V):占2位,用来标志使用的RTP版本。
2、填充位(P):占1位,如果P=1,则该RTP包的尾部包含附加的填充字节。3、作用是为了字节对齐,填充字节的数量保存在最后一个字节中
4、扩展位(X):占1位,如果X=1,则RTP固定头部后面就跟有一个扩展头部,即上面的CSRC信息
5、CSRC计数器(CC):占4位,指示 CSRC标识符的数量。
标记位(M):占1位,当M=1时,对于视频流, 它表示一帧的结束,而对于音频,则表示一次谈话的开始。
6、载荷类型(PT):占7位,标识了RTP载荷的类型,比如是视频还是音频类型
7、序列号(SN):占16位,发送方在每发送完一个RTP包后就将该域的值增加1,接收方可以由该域检测包的丢失及恢复包序列。序列号的初始值是随机的。
8、时间戳(timestamp):占32位,记录了该包中数据的第一个字节的采样时刻。在一次会话开始时,时间戳初始化成一个初始值(随机生成)。即使在没有信号发送时,时间戳的数值也要随时间而不断地增加。时间戳是去除抖动和实现同步不可缺少的。
9、同步源标识符(SSRC):占32位,用来表示RTP包的类型,每次开启新的流会话该值都会变化
10、特约信源(CSRC):每个CSRC标识符占32位,可以有0~15个,每个CSRC 标识了包含在该RTP报文有效载荷中的所有特约信源。当CC>0时有此信息扩展信息XXXX:定义的扩展信息,当X为1时有此信息
- 抖动和丢包率
1、端到端延迟:端到端延迟=数据包的接收时间-数据包的发送时间;
3、抖动率=(数据包P↓[j]的延迟-数据包P↓[i]的延迟)/(数据包P↓[j]的序号j-数据包P↓[i]的序号i)
数据包P↓[j]的延迟=数据包P↓[j]接收时间-数据包P↓[j]发送时间
数据包P↓[i]的延迟=数据包P↓[i]接收时间-数据包P↓[i]发送时间
4、吞吐量:单位时间内,某个节点发送和接收的数据量,单位一般是b/s
5、丢包率:指测试中所丢失数据包数量占所发送数据包的比率。丢包率与数据包长度以及包发送频率相关
6、关于延迟和抖动
延迟是不可避免的,而抖动是可以通过某些技术方案优化的,常见于缓冲技术
RTCP数据包的构成
RTCP一般和RTP建立在同一连接的端口对上,一般在创建RTP/RTCP连接时,会创建一对端口,其中偶数端口给RTP使用,奇数端口给RTCP使用。RTP和RTCP使用相同的连接方式(TCP/UDP)
RTCP数据包有多种类型,如下:
各种类型的RTCP包前面的8个字节是固定的,后面的则根据包类型有所区别,具体参考文档 RFC3550,这里以接收端RR报文为例:
1字节V(2bit)+P(1bit)+RC(5bit) 2字节PT(8bit) 3 4字节(lenght)+5 6 7 8字节SSRC+报告块1(SSRC_1,24字节)+......报告块n(SSRC_N,24字节)
V:2bit,RTCP版本,一般为2
P: 1bit,如果为1,则说明在RTCP尾部会有填充直接,填充字节长度为RTCP最后一个字节的值
RC:5bit,本RTCP报文中报告块的个数,不超过32。每一路流都会建立一个报告块,比如如果同时包含音频流,视频流,则会建立两个报告块
PT:1字节,RTCP类型,比如201就为RR
length:2字节,整个RTCP报文的长度
SSRC:4字节,唯一标识该RTCP
以上是所有RTCP报文的固定字节,以下是报告块的结构,每一个报告块结构都相同,个数由前面的RC的值决定
SSRC_n:4字节,报告块的SSRC,与RTP对应
fraction lost:1字节,上次 RR 发送之后,从 SSRC_n 源的 RTP 报文丢包率(该值除以 256 则得到百分比的丢包率),如果有RTP包重传机制,则计算的丢失部分有可能是负数,这里要处理让其为0。
cumulative number of packets lost:24 bits,从接收开始,SSRC_n 源的 RTP 报文丢失的数量。定义为期望的减去实际接收的,其中接收的包括迟到的和复制的,如果有复制,丢失可能为负。期望的报文定义为由上次接收的序列号延伸出的序列号减去接收到的初始序列号。
extended highest sequence number received:32 bits
低 16 位包含从源 SSRC_n 接收到的 RTP 数据报文中最高的序列值、高16位表示循环的次数
interarrival jitter:32 bits
关于 RTP 数据报文 interarrival 时间的统计方差的估值,以 timestamp 单元来估值,表现为无符号整数。interarrival jitter J 定义为 D 的均方差,D为接收者和发送者的间隔。像下面方程所示,等于两个报文的“相对传输时间”(the relative transit time) 的差;相对传输时间是一个报文的 RTP timestamp 和到达接收者的时钟的差,在相同单元衡量。
last SR timestamp (LSR):32 bits NTP timestamp的中间 32 位作为从源 SSRC_n 来的最近的 RTCPSR。如果尚未接收到 SR,域设置为零。
delay since last SR (DLSR):32 bits延迟定义为从接收到从源 SSRC_n 来的上一个 SR 到发送本接收报告块的间隔,表示为 1/65536 秒一个单元。如果尚未收到 SR,DLSR 域设置为零