什么是视频直播?
直播就是将每一帧数据(Vide/Audio/Data Frame),打上时序标签(Timestamp)后进行流式传输的过。发送端源源不断地采集音视频数据,经过编码、封包、推流,在经过中继分发网络(CDN)进行扩散传播,播放端再源源不断地下载数据并按时序进行解码播放。如此就实现了“边生成、边传输、边消费”的直播过程。
延迟:数据从信息源发送到目的地所需时间(低延迟)
RTMP/HLS是基于TCP之上的应用层协议,TCP三次握手,四次挥手,慢启动过程中每一次往返来回,都会加上一次往返耗时(RTT),这些交互过程都会增加延迟;其次TCP丢包重传特性,网络抖动可能导致丢包重传,也会间接导致延迟加大。
一个完整的直播过程包括但不限于以下环节:
采集、处理、编码、封包、推流、传输、转码、分发、拉流、解码、播放。
从推流到播放,再经过中间转发环节,延迟越低,用户体验越好。
卡顿:视频播放过程中出现画面滞帧;单位时间内播放卡顿次数统计称之为卡顿率(高清流畅)
造成卡顿的因素有可能是推流端发送数据中断,可能是公网传输拥塞或网络抖动异常,可能是终端设备的解码性能太差。卡顿次数越少或没有,用户体验越好。
首屏耗时:第一次点击播放后,肉眼看到画面所等待的时间。技术上指播放器解码第一帧渲染显示画面所花的耗时(极速秒开)
通常说的秒开是指点击播放后,一秒内即可看到播放画面。首屏打开越开,用户体验越好。
不同芯片平台编码差异:
iOS平台上无论硬编还是软编都是Apple一家公司出厂,几乎不存在因为芯片平台不同而导致的编码差异
Android平台上,Android Framework SDK提供的MdeiaCodec编码器,在不同的芯片平台上,表现差异很大,不同的厂家使用不同的芯片,不同的芯片平台上Android MediaCodec表现略有差异,通常实现全平台兼容的成本不低;Android MediaCodec硬编层面的H.264编码画质参数是固定的baseline,画质通常也一般,在Android平台下推荐用软编,好处是画质可调控,兼容性更好。
低端设备高性能采集和编码:
Camera采集输出的可能是图片,一张图的体积并不会小,如果采集的频次很高,编码的帧率很高,每张图都经过编码器,编码器有可能会出现过载。这个时候可以考虑在编码前,不影响画质的前提下,进行选择性丢帧,以此降低编码环节的功耗开销。
弱网下保障高级流畅推流:
移动网络下,通常容易遇到网络不稳定,连接被重置,断线重连,一方面频繁重连,建立连接需要开销。另一方面尤其是发生GPRS/2G/3G/4G切换时,带宽可能出现瓶颈。当带宽不够,帧率较高/码率较高的内容较难发送出去,这个时候就需要可变码率支持。即推流端,可检测网络状况和简单测速,动态来切换码率,以保障网络切换时的推流流畅。其次,编码、封包、推流这一部分的逻辑也可以做微调,可以尝试选择性丢帧,比如优先丢视频参考帧(不丢音频帧和I帧),这样也可以减少要传输的数据内容,但同时又达到了不影响画质和视频流畅的目的。
实现“秒开”考虑方向:
1、改写播放器逻辑,让播放器拿到第一个关键帧后就给予渲染。GOP的第一帧通常都是I帧,由于加载的数据较少,可以达到首帧秒开。如果直播服务器支持GOP缓存,意味着播放器在和服务器建立连接后可立即拿到数据,从而省却跨地区和跨运营商的回源传输时间。
GOP体现关键帧的周期,也就是两个关键帧之间的距离,即一个帧组的最大帧数。假设一个视频的恒定帧率是24fps(1秒24帧图像),关键帧周期为2s,那么一个GOP就是48张图片。一般而已,每一秒视频至少需要使用一个关键帧。
如果不能更改播放器行为逻辑为首帧秒开,直播服务器也可以做一些取巧处理,比如缓存GOP改成缓存双关键帧(减少图片数量),这样可以极大程度地减少播放器加载GOP要传输的内容体积。
2、APP业务逻辑层面方面优化,提前做好DNS解析(省却几十毫秒),提前做好测速选线(择取最优路线)。经过这样的预处理后,在点击播放按钮时,将极大提高下载性能。
一方面可以围绕传输层面做性能优化,另一方面可以围绕客户播放行为做业务逻辑优化。两者可以有效的互为补充,作为秒开的优化空间。
直播流媒体服务端架构也可以降低延迟,收流服务器主动推送GOP至边缘节点,边缘节点缓存GOP,播放器则可以快速加载,减少回源延迟,贴近终端就近处理和分发。
保障直播持续播放流程不卡顿:
直播毕竟不是一个HTTP一样的一次性请求,而是一个Socket层面的长连接维持,直到主播主动终止推流。
不考虑终端设备性能差异的情况下,针对网络传输层面的原因,保障一个持续的直播不卡顿。
其实是一个直播过程中传输网络不可靠时的容错问题:播放端临时断网了,但又快速恢复了,针对这种场景,播放段如果不做容错处理,很难不出现黑屏或重新加载播放现象。
为了容忍这种网络错误,并达到让终端用户无感知,客户端播放器可以考虑构建一个FIFO(先进先出)的缓冲队列,解码器从播放缓存对了读取数据,缓存队列从直播服务器源源不断的下载数据。通常,缓存队列的容量是以时间为单位(3s),在播放端网络不可靠时,客户端缓存区可以起到断网无感的过度作用。
如果直播服务器边缘节点出现故障,而此时客户端播放器又是长连接,在无法收到对端的连接断开信号,客户端的缓冲区容量再大也不管用了,这个时候需要结合客户端业务逻辑来做调度。重要的是客户端结合服务端,可以做精准调度。在初始化直播推流之前,例如基于IP地理位置和运营商的精准调度,分配路线质量最优的边缘接入节点。在直播推流过程中,可以实时监测帧率反馈等质量数据,基于直播流的质量动态调整路线。