文献:Y. Guo, F. R. Yu, J. An, K. Yang, C. Yu and V. C. M. Leung, "Adaptive Bitrate Streaming in Wireless Networks With Transcoding at Network Edge Using Deep Reinforcement Learning," in IEEE Transactions on Vehicular Technology, vol. 69, no. 4, pp. 3879-3892, April 2020, doi: 10.1109/TVT.2020.2968498.
概述
目前,无线网络中的大多数设备都是从云端的文件服务器中获取视频资源,相对应地,如今主流的码率自适应(ABR)决策基本上只根据用户设备和云端服务器的情况判断下一时刻用户应该获取什么质量的视频片段。事实上,这一传输过程可以拆分成两个部分来考虑:
视频文件通过有线骨干网络从云端网络服务器转移到本地无线接入网;
无线接入网(RAN)通过无线信道将视频文件传输到用户设备。
由此可见,端到端的码率自适应决策显然是没有考虑周全的,无线接入网中的移动边缘计算单元(MEC)同样可以参与到码率决策过程中,并且不难得出以下三个优势:
可以避免从远程骨干网络服务器获取视频内容的长延迟;
对突发波动的网络状态感知更加敏感,对用户实时反馈(如个性化的体验质量需求)响应更快;
可根据用户需求对已获取视频块进行处理(如转码),从而降低流传输时节点的预缓存压力。
因此,在现阶段研究结合边缘节点的码率自适应策略是有必要的。文献中,作者专注于研究时变无线信道下基于MEC的联合计算和传输,提出了一种联合视频转码和质量调节的ABR流传输框架,以充分运用RAN中MEC算力。
模型
在系统模型中,作者考虑以下场景:RAN网络的传输基于FDMA,该RAN区域内有一个MEC服务器,用户持有无线设备以普通步行的速度移动。其中,MEC由三个部分组成:边缘视频服务器拥有请求视频的原始码率文件,转码服务器负责将原始码率视频转码成其他码率版本以提升用户的体验质量,流传输服务器负责向用户设备传输视频。另外在该RAN中存在一个边缘控制单元,它将负责做出各种动作决策(如转码、自适应码率传输等)。
为了便于分析,作者对各个模块单独建模:
自适应码率流传输模型:由两个部分组成,质量-码率模型用特定函数
将视频每个时隙的码率
映射为不同的质量级
,播放缓存模型保存以经过转码等处理、即将被拉取到播放器播放的视频片段,其缓存视频时长为
。其中,
为每个视频片段时长,
为无线传输速率,
为
时隙的视频块下载时间。
计算模型:以下公式用于量化单位时隙内转码视频片段的数量,
。其中,
为单位时隙内被分配用于视频转码的CPU核数,
为单个CPU核的计算循环频率,
为从原始码率转码到当前所需码率
所需的CPU循环数。
转码缓存模型:以下公式用于量化MEC服务器内即将被转码的视频块队列长度,
。
信道模型:此处作者使用有限状态的马尔可夫信道(FSMC)模型预测未来的信道状态,并将信道状态分为
个等级,可得信道转移概率为
。根据香农定理,无线传输速率可表达为,
。其中,
为网络带宽,
为传输功率,
为附加白高斯噪声的频谱密度,
为用户的信道状态。
在使用强化学习(RL)方法前,作者需要定义以下概念:
奖励(Reward):作者定义奖励函数如下:
其中,公式右侧前三项分别代表视频质量、视频质量波动、视频卡顿时间,即:
第四项的惩罚值用于确保视频回放缓存维持在一定阈值附近;第五项的惩罚值用于确保转码缓存数量尽量小;第六项的惩罚值用于确保CPU核心的消耗量尽量小;
为各项权重。
状态(State):
时刻的状态由以下五个部分组成:
动作(Action):
时刻的动作由分配给转码工作的CPU核数和视频自适应码率组成:
状态转移概率(State Transition Probability):在马尔可夫决策过程(MDP)中,下一状态只与当前状态和所选择动作有关,而信道转移概率和缓存状态和选择动作无关:
问题公式化(Problem Formulation):问题的目标可根据以上模型转化为联合视频转码和码率自适应来最大化平均奖励期望:
深度强化学习算法
因为目前模型中的信道转移概率矩阵不可知,且运用传统强化学习方法时状态过多不便于存储及运算,作者拟使用深度强化学习(DRL)方法中的经典模型Native Deep Q-Learning Network(Native DQN)来解决此类问题。
特别地,较于一般的Q-Learning方法,Native DQN将决策交给由参数定义的神经网络,同时使用经验回放(Replay Memory)来存储历史状态,以替代Q-Learning中数据量庞大的状态表。另外,Native DQN使用Q网络选择动作、更新模型,并使用目标Q网络进行目标Q值计算,其中目标Q网络不需要迭代更新,而是定时复制Q网络参数,目的是减少目标Q值和当前Q值的相关性。
通过向模型输入当前状态,可以得到当前状态下应该选择的最优动作集
。
为了更高效地利用状态信息,作者使用卷积神经网络(CNN)模型作为Q网络模型来计算Q值,模型中包含一层输入层、一层输出层、一层卷积层和两层全连接层。其中卷积层将多个状态及对应内容映射成一个二维的表格,并进行卷积、池化等操作,最终得到目标Q值。
性能对比
以上为文中模型及仿真使用的参数表。
以上两个图显示了该DRL算法在不同权重下的收敛情况,可以看到,在开始运行算法时所有情况下的奖励期望值都是非常小的,随着训练量的增加,所有奖励期望值都收敛到稳定的值上,而这也验证了该DRL算法的收敛性。
在该算法中,平均奖励值也随着转码服务器上最大计算能力的提升而增长。特别地,在最大计算能力非常低时,平均奖励值也非常低(如时平均奖励为
),这是因为最大计算能力有限会使视频转码过程需要花费更多的时间,从而导致卡顿事件发生概率增加。
最后,作者将该DRL算法和以下五种现有算法作比较:
传统Q-Learning算法(Tabular Q learning algorithm):使用Q值表格的形式预测价值函数。
基于缓存的算法(Buffer-Aware Algorithm):只根据视频回放缓存状态信息来进行码率自适应控制。
基于带宽的策略(Rate-Based Policy):只根据网络可用带宽状况来进行码率自适应控制。
不使用转码策略(Without Transcoding Policy):不在RAN中的MEC服务器使用视频转码技术,即RAN中只有最高码率版本可用。
随机策略(Random Policy):在动作集中随机选择下一执行动作。
以上是提出算法和对比算法在六组不同的参数设置下的性能比较,其中(a)(b)(c)使用full weight(),(d)(e)(f)使用QoE weight(
);(a)(f)使用Avoid Rebuffering(
),(b)(e)使用Avoid Instability(
),(c)(d)使用Balanced(
)。
可以看到,DRL算法所表现性能优于对比算法,且DRL算法、传统Q-Learning算法和基于带宽的算法性能始终优于基于缓存的算法、不使用转码策略和随机策略,同时不使用转码策略始终表现出最差的性能,这也印证了在MEC中结合DRL模型进行决策的有效性。
另外,DRL算法和传统Q-Learning算法之间始终保持一定的性能差异,这是因为传统Q-Learning算法中根据价值状态表格更新的形式并不适合代表大型网络的价值函数。相反,DRL算法通过历史经验概括出从未观测到的状态,可以处理大规模的优化问题。
进一步思考
通过对结合边缘节点及深度强化学习的码率自适应策略的调研,针对目前我们平台的实现情况,可以引发以下几点思考:
-
这篇论文的优点:
将边缘节点纳入到视频传输框架中,使得视频转码及码率决策等算力需求较大的任务向边缘算力单元卸载,从而有效减轻骨干网络的传输压力以及用户终端的计算压力;
将深度强化学习和传统强化学习实现到同一仿真环境中进行比较,验证了在多变信道下使用深度强化学习来进行码率决策的必要性;
对视频传输场景的建模比较详细,考虑了信道状态、转码队列、CPU算力等因素,使深度强化学习模型的决策更为准确。
-
这篇论文的不足:
仿真性能并不能代表算法在实际优化问题中的性能,还需要针对特定传输场景对模型进行进一步优化;
论文建模和实际应用场景不匹配,无法直接部署到现有视频传输平台上。
在用户信道状态未知且波动频繁的情况下,使用深度强化学习的方法的确可以较为准确地评估当前的状态并做出较为准确的决策,但不同的高清视频传输场景拥有不同的传输特性,只基于简单的缓存、码率及信道状况并不能完整地表示当前的状态特性。如一些文献中的网络状态即考虑了无人机的飞行状态等设备载体的信息,在未来的研究中应更深入地挖掘目前平台视频传输场景的独特性。
这篇论文只考虑了单用户、单节点的传输场景,且没有在真实传输环境中进行算法验证,实际上现在的移动视频传输主要是面向大规模、多用户的场景,可以将基于深度强化学习的概念结合到多节点联合传输的框架中。