论文调研——结合边缘节点及深度强化学习的码率自适应策略

文献:Y. Guo, F. R. Yu, J. An, K. Yang, C. Yu and V. C. M. Leung, "Adaptive Bitrate Streaming in Wireless Networks With Transcoding at Network Edge Using Deep Reinforcement Learning," in IEEE Transactions on Vehicular Technology, vol. 69, no. 4, pp. 3879-3892, April 2020, doi: 10.1109/TVT.2020.2968498.

概述

目前,无线网络中的大多数设备都是从云端的文件服务器中获取视频资源,相对应地,如今主流的码率自适应(ABR)决策基本上只根据用户设备和云端服务器的情况判断下一时刻用户应该获取什么质量的视频片段。事实上,这一传输过程可以拆分成两个部分来考虑:

  • 视频文件通过有线骨干网络从云端网络服务器转移到本地无线接入网;

  • 无线接入网(RAN)通过无线信道将视频文件传输到用户设备。

由此可见,端到端的码率自适应决策显然是没有考虑周全的,无线接入网中的移动边缘计算单元(MEC)同样可以参与到码率决策过程中,并且不难得出以下三个优势:

  • 可以避免从远程骨干网络服务器获取视频内容的长延迟;

  • 对突发波动的网络状态感知更加敏感,对用户实时反馈(如个性化的体验质量需求)响应更快;

  • 可根据用户需求对已获取视频块进行处理(如转码),从而降低流传输时节点的预缓存压力。

因此,在现阶段研究结合边缘节点的码率自适应策略是有必要的。文献中,作者专注于研究时变无线信道下基于MEC的联合计算和传输,提出了一种联合视频转码和质量调节的ABR流传输框架,以充分运用RAN中MEC算力。

模型

在系统模型中,作者考虑以下场景:RAN网络的传输基于FDMA,该RAN区域内有一个MEC服务器,用户持有无线设备以普通步行的速度移动。其中,MEC由三个部分组成:边缘视频服务器拥有请求视频的原始码率文件,转码服务器负责将原始码率视频转码成其他码率版本以提升用户的体验质量,流传输服务器负责向用户设备传输视频。另外在该RAN中存在一个边缘控制单元,它将负责做出各种动作决策(如转码、自适应码率传输等)。

文中为ABR流传输所提出的边缘计算模型

为了便于分析,作者对各个模块单独建模:

  • 自适应码率流传输模型:由两个部分组成,质量-码率模型用特定函数F(.)将视频每个时隙的码率R(t)映射为不同的质量级q(t),播放缓存模型保存以经过转码等处理、即将被拉取到播放器播放的视频片段,其缓存视频时长为B_2(t+1)=D+max(B_2(t)-d(t),0)。其中,D为每个视频片段时长,C(t)为无线传输速率,d(t)=R(t)/C(t)t时隙的视频块下载时间。

  • 计算模型:以下公式用于量化单位时隙内转码视频片段的数量,I(t)=⌈(O(t)×g_0×d(t))/(μ(t))⌉。其中,O(t)为单位时隙内被分配用于视频转码的CPU核数,q_0(t)为单个CPU核的计算循环频率,μ(t)为从原始码率转码到当前所需码率L(t)所需的CPU循环数。

  • 转码缓存模型:以下公式用于量化MEC服务器内即将被转码的视频块队列长度,B_1(t+1)=max⁡(B_1(t)-D,0)+I(t)×D

  • 信道模型:此处作者使用有限状态的马尔可夫信道(FSMC)模型预测未来的信道状态,并将信道状态分为M个等级,可得信道转移概率为P_H=\left( \begin{matrix} P_{1,1} & \cdots & P_{1,M} \\ \vdots & \ddots & \vdots \\ P_{M,1} & \cdots & P_{M,M} \end{matrix} \right)。根据香农定理,无线传输速率可表达为,C(t)=W log_2⁡((1+(P_0 h(t))/(N_0 W))。其中,W为网络带宽,P_0为传输功率,N_0为附加白高斯噪声的频谱密度,N_0为用户的信道状态。

在使用强化学习(RL)方法前,作者需要定义以下概念:

  • 奖励(Reward):作者定义奖励函数如下:r(t)=w_1 q(t)-w_2 ||q(t)-q(t-1)||-w_3 ϕ(t) \\ -w_4 ||max⁡(0,B_{2,thr}-B_2 (t+1))||-w_5 B_1 (t)-w_6 O(t)其中,公式右侧前三项分别代表视频质量、视频质量波动、视频卡顿时间,即:ϕ(t)=max⁡(d(t)-B_2 (t),0)第四项的惩罚值用于确保视频回放缓存维持在一定阈值附近;第五项的惩罚值用于确保转码缓存数量尽量小;第六项的惩罚值用于确保CPU核心的消耗量尽量小;w_1,...,w_6为各项权重。

  • 状态(State):t时刻的状态由以下五个部分组成:s(t)={B_1 (t),B_2 (t),h(t),q(t),q(t-1)}

  • 动作(Action):t时刻的动作由分配给转码工作的CPU核数和视频自适应码率组成:A(t)={O(t),L(t)}

  • 状态转移概率(State Transition Probability):在马尔可夫决策过程(MDP)中,下一状态只与当前状态和所选择动作有关,而信道转移概率和缓存状态和选择动作无关:P(s(t+1)│s(t),a(t) )=P(s*{-h} (t+1),h(t+1)│s*{-h} (t),h(t),a(t) ) \\ =P(h(t+1)│h(t) ) P(s*{-h} (t+1)|s*{-h} (t),h(t),a(t))

  • 问题公式化(Problem Formulation):问题的目标可根据以上模型转化为联合视频转码和码率自适应来最大化平均奖励期望:\max_{O(t),L(t)}\Bbb{E}[\sum_{t=0}^{T-1} {\gamma ^t r(t)}] \\ s.t. C1:O(t) \in \lbrace 0,1,...,N\rbrace,\forall t, \\ C2:L(t) \in \lbrace L_1,L_2,...,L_{max} \rbrace ,\forall t

深度强化学习算法

因为目前模型中的信道转移概率矩阵P_H不可知,且运用传统强化学习方法时状态过多不便于存储及运算,作者拟使用深度强化学习(DRL)方法中的经典模型Native Deep Q-Learning Network(Native DQN)来解决此类问题。

DQN算法结构示意图

特别地,较于一般的Q-Learning方法,Native DQN将决策交给由参数\theta定义的神经网络,同时使用经验回放(Replay Memory)来存储历史状态,以替代Q-Learning中数据量庞大的状态表。另外,Native DQN使用Q网络选择动作、更新模型,并使用目标Q网络进行目标Q值计算,其中目标Q网络不需要迭代更新,而是定时复制Q网络参数,目的是减少目标Q值和当前Q值的相关性。

使用深度神经网络进行不同状态及动作的价值估算结构示意图

通过向模型输入当前状态s(t)=\lbrace B_1 (t),B_2 (t),h(t),q(t),q(t-1)\rbrace,可以得到当前状态下应该选择的最优动作集A(t)=\lbrace O(t),L(t)\rbrace

仿真中深度神经网络的结构示意图

为了更高效地利用状态信息,作者使用卷积神经网络(CNN)模型作为Q网络模型来计算Q值,模型中包含一层输入层、一层输出层、一层卷积层和两层全连接层。其中卷积层将多个状态及对应内容映射成一个二维的表格,并进行卷积、池化等操作,最终得到目标Q值。

性能对比

模型及仿真使用参数表

以上为文中模型及仿真使用的参数表。

不同权重下的DRL算法收敛性能对比:(a) QoE weight
不同权重下的DRL算法收敛性能对比:(b) Full weight

以上两个图显示了该DRL算法在不同权重下的收敛情况,可以看到,在开始运行算法时所有情况下的奖励期望值都是非常小的,随着训练量的增加,所有奖励期望值都收敛到稳定的值上,而这也验证了该DRL算法的收敛性。

不同最大计算能力下DRL算法的平均奖励

在该算法中,平均奖励值也随着转码服务器上最大计算能力的提升而增长。特别地,在最大计算能力非常低时,平均奖励值也非常低(如N=2时平均奖励为-13),这是因为最大计算能力有限会使视频转码过程需要花费更多的时间,从而导致卡顿事件发生概率增加。

最后,作者将该DRL算法和以下五种现有算法作比较:

  • 传统Q-Learning算法(Tabular Q learning algorithm):使用Q值表格的形式预测价值函数。

  • 基于缓存的算法(Buffer-Aware Algorithm):只根据视频回放缓存状态信息来进行码率自适应控制。

  • 基于带宽的策略(Rate-Based Policy):只根据网络可用带宽状况来进行码率自适应控制。

  • 不使用转码策略(Without Transcoding Policy):不在RAN中的MEC服务器使用视频转码技术,即RAN中只有最高码率版本可用。

  • 随机策略(Random Policy):在动作集中随机选择下一执行动作。

不同权重下提出算法和对比算法的性能比较

以上是提出算法和对比算法在六组不同的参数设置下的性能比较,其中(a)(b)(c)使用full weight(w_4=0.001,w_5=0.001,w_6=0.001),(d)(e)(f)使用QoE weight(w_4=0,w_5=0,w_6=0);(a)(f)使用Avoid Rebuffering(w_1=1,w_2=1,w_3=60),(b)(e)使用Avoid Instability(w_1=1,w_2=3,w_3=30),(c)(d)使用Balanced(w_1=1,w_2=1,w_3=30)。

可以看到,DRL算法所表现性能优于对比算法,且DRL算法、传统Q-Learning算法和基于带宽的算法性能始终优于基于缓存的算法、不使用转码策略和随机策略,同时不使用转码策略始终表现出最差的性能,这也印证了在MEC中结合DRL模型进行决策的有效性。

另外,DRL算法和传统Q-Learning算法之间始终保持一定的性能差异,这是因为传统Q-Learning算法中根据价值状态表格更新的形式并不适合代表大型网络的价值函数。相反,DRL算法通过历史经验概括出从未观测到的状态,可以处理大规模的优化问题。

进一步思考

通过对结合边缘节点及深度强化学习的码率自适应策略的调研,针对目前我们平台的实现情况,可以引发以下几点思考:

  • 这篇论文的优点:

    • 将边缘节点纳入到视频传输框架中,使得视频转码及码率决策等算力需求较大的任务向边缘算力单元卸载,从而有效减轻骨干网络的传输压力以及用户终端的计算压力;

    • 将深度强化学习和传统强化学习实现到同一仿真环境中进行比较,验证了在多变信道下使用深度强化学习来进行码率决策的必要性;

    • 对视频传输场景的建模比较详细,考虑了信道状态、转码队列、CPU算力等因素,使深度强化学习模型的决策更为准确。

  • 这篇论文的不足:

    • 仿真性能并不能代表算法在实际优化问题中的性能,还需要针对特定传输场景对模型进行进一步优化;

    • 论文建模和实际应用场景不匹配,无法直接部署到现有视频传输平台上。

  • 在用户信道状态未知且波动频繁的情况下,使用深度强化学习的方法的确可以较为准确地评估当前的状态并做出较为准确的决策,但不同的高清视频传输场景拥有不同的传输特性,只基于简单的缓存、码率及信道状况并不能完整地表示当前的状态特性。如一些文献中的网络状态即考虑了无人机的飞行状态等设备载体的信息,在未来的研究中应更深入地挖掘目前平台视频传输场景的独特性。

  • 这篇论文只考虑了单用户、单节点的传输场景,且没有在真实传输环境中进行算法验证,实际上现在的移动视频传输主要是面向大规模、多用户的场景,可以将基于深度强化学习的概念结合到多节点联合传输的框架中。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 226,979评论 6 528
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 97,750评论 3 412
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 174,647评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,299评论 1 307
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,104评论 6 405
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,623评论 1 320
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,716评论 3 434
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,873评论 0 285
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,380评论 1 330
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,344评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,496评论 1 365
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,055评论 5 355
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,756评论 3 343
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,146评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,410评论 1 281
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,072评论 3 386
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,485评论 2 370

推荐阅读更多精彩内容