1. 论文背景
移动边缘计算系统中,存在大量的移动设备将任务分配到边缘节点,但是由于计算任务的处理时延等问题,导致边缘节点的负载动态不确定。
在本研究中,我们考虑边缘节点的未知负载水平动态,提出了一种基于DRL的MEC系统分布式卸载算法。在该算法中,每个移动设备可以利用局部观察到的信息(包括其任务的大小、其队列的信息和边缘节点上的历史负载水平)以分散的方式确定卸载决策。
2. 论文创新点
提出一种基于深度强化学习的无模型分布式算法,每个设备可以在不知道其他设备的任务模型和卸载决策的情况下决定自己的卸载决策。引入长短时记忆,DQN,double-DQN技术。
3. 论文贡献
MEC系统的任务卸载问题:我们制定了一个考虑边缘节点负载水平动态的任务卸载问题,以最小化预期的长期成本(考虑任务的延迟和那些任务被删除的惩罚)。在该问题中,我们考虑不可分割和延迟敏感的任务,并使用排队系统来建模任务的处理和传输过程。
基于drl的任务卸载算法:为了在考虑边缘节点未知负载动态的情况下实现预期的长期成本最小化,我们提出了一种基于drl的无模型分布式卸载算法,使每个移动设备在不了解其他移动设备的任务模型和卸载决策的情况下做出自己的卸载决策。为了改进算法中预期长期代价的估计,我们引入了长短时记忆(LSTM)、深度问答网络(DQN)和双DQN技术。
性能评估:我们进行了仿真,并与[14]中的潜在基于游戏的卸载算法(PGOA)和中用户级在线卸载框架(ULOOF)进行了比较[15],我们提出的基于drl的算法可以更好地利用移动设备和边缘节点的处理能力,可以显著降低任务丢失率和平均时延。在50台移动设备和5个边缘节点的场景下,与现有算法相比,该算法可以减少86:4% ~ 95:4%的任务丢失率,平均时延减少18:0% ~ 30:1%。
4. 论文算法
5. 论文结果
图4显示的比例下降的平均延迟任务和提出DRL-based算法和基准的方法集(基于表1的参数),如图4所示,该算法收敛后350集,它达到的比例下降任务0:02和平均延迟0:52第二。这种聚合性能明显优于基准测试方法。从图中可以看出,与基准方法相比,本文方法减少了86:4% ~ 95:4%的任务丢失率,平均时延减少了18:0% ~ 30:1%。
任务到达概率越大,系统的负载越大。如图5 (a)所示,随着任务到达概率的增加,与基准方法相比,本文提出的基于drl的算法始终能够保持较低的任务丢失率。具体来说,当任务到达概率很小(即0:1)时,大多数方法都可以实现任务丢失率在0左右。随着任务到达概率从0:1增加到0:5,所提算法的任务丢失率保持在0:2以下,而基准方法的任务丢失率则增加到0:5以上。此外,与基准方法相比,本文提出的基于drl的算法降低了任务丢失率,特别是在任务到达概率适中(0:3 ~ 0:8)的情况下,任务丢失率的减少至少为13:3%。
在图5 (b)中,随着任务到达概率的增加,由0:1到0:4时,我们提出的基于drl的算法的平均时延增加了26:1%,而基准方法的平均时延至少增加了34:5%。这意味着,随着系统负载的增加,所提算法的平均延迟增加的幅度小于基准方法。当任务到达概率增加到0:6左右时,有些方法的平均时延减小,因为越来越多的任务被丢弃,因此不计入平均时延。由于同样的原因,当系统负载较高时,由于所提算法的任务减少,其平均延迟可能比其他方法更大。
更小的截止日期意味着任务对延迟更敏感。在图6 (a)中,所提算法的任务丢失率始终低于基准方法,尤其是在截止日期较小时。当任务截止时间为0:6秒时,该算法将任务丢弃率降低了65:8% ~ 79:3%。随着截止日期的增加,每种方法被删除的任务的比例会降低。在该算法中,当截止时间大于1:4秒时,任务丢失率小于0:01。相比之下,ULOOF在截止时间大于2:4秒时的性能是相同的。
在图6 (b)中,随着任务期限的增加,每种方法的平均延迟都增大,并逐渐收敛。这是因为当截止日期更大时,需要更长的处理(和传输)时间的任务可以被处理,并计入平均延迟。当截止日期足够大时,不会删除任何任务,因此进一步增加截止日期不会产生任何影响。如图所示。6 (b),所提算法的平均时延收敛(即达到边际增长小于0:05)在截止时间增加到1:4秒后,趋同平均值。相比之下,ULOOF的收敛平均时延约为0:84秒,比本文算法的收敛平均时延大55:6%,其他方法的收敛平均时延均大于0:96秒。这说明,当任务期限足够大时,虽然每种方法的任务丢失率都在0左右,但本文算法在减少平均延迟方面优于其他方法。
任务密度越大,意味着每个任务的计算需求越大。因此,在图7中,随着任务密度的增加,每种方法的丢失任务比例和平均延迟都增加了。另一方面,当密度较小时(如小于0:15 gigaccycles / Mbits),传输时延占处理时延的支配地位,因此不卸载比随机卸载的任务丢失率更低,平均时延更低。当密度较大时(例如大于0:3 gigaccycles / Mbits),处理时延占传输时延的支配地位,因此随机卸载比不卸载性能更好。
6.文章引用
Tang, M., & Wong, V. W. (2020). Deep reinforcement learning for task offloading in mobile edge computing systems. IEEE Transactions on Mobile Computing.
https://arxiv.org/pdf/2005.02459.pdf