姓名:任爽 学号:21011210089
转自:http://www.infocomm-journal.com/wlw/article/2020/2096-3750/2096-3750-4-3-00003.shtml
【嵌牛导读】随着信息技术的不断发展,信息服务的空间范畴不断扩大,各种天基、空基、海基、地基网络服务不断涌现,对多维综合信息资源的需求也逐步提升。空天地一体化网络可以为陆海空天用户提供无缝信息服务,满足未来网络对全时全域全空通信和网络互联互通的需求。首先,对空天地一体化网络技术及协议体系的发展趋势进行了分析,探讨了低轨卫星通信系统以及空地网络融合的研究进展。针对网络结构复杂、动态性高、资源高度约束等问题,提出了基于强化学习(RL,reinforcement learning)的空天地一体化网络设计与优化框架,以进行高效快速的网络设计、分析、优化与管控。同时给出了实例分析,阐明了利用深度强化学习(DRL,deep RL)进行空天地一体化网络智能接入选择的方法。并通过搭建空天地一体化网络仿真平台,解决了网络观测稀疏与训练数据难以获取的问题,极大地提升了RL的训练效率。最后,对空天地一体化网络中的潜在研究方向进行了探讨。
【嵌牛鼻子】空天地一体;强化学习;低轨卫星星座
【嵌牛提问】 强化学习方法在空天地一体化网络中的应用场景、方法以及潜在优势?
【嵌牛正文】
作为机器学习领域最重要的研究方向之一,在过去20年中,RL[29]对人工智能的发展产生了重大影响。RL 是一个学习过程,在该过程中,智能体(agent)可以定期做出决策,观察结果,然后自动调整其策略以实现最佳策略。尽管这种学习过程的收敛性已经被证明,但要保证收敛到最佳策略,通常需要大量时间探索并获得整个系统的知识。因此,简单的 RL 并不适用于空天地一体化网络这种大规模、高复杂度的网络环境。为了克服RL的局限性,DRL 作为一种新的突破技术得到了越来越多的关注。不同于传统RL通过Q表枚举环境状态与最佳策略动作之间的映射关系,DRL 采用深度神经网络(DNN,deep neural network)替代Q表,在理论上可以拟合任意特性的复杂映射关系,从而提高了学习速度和RL算法的性能。在实践中,深度学习已经成为机器人控制、计算机视觉、语音识别和自然语言处理等新兴产业的理论支撑。最著名的应用当属屡次击败人类的围棋人工智能AlphaGo Zero[30]。
在通信和网络领域,深度学习已被用作有效解决各种问题和挑战的新兴工具[31]。对于以空天地一体化网络为代表的未来网络,其内部包含多种异构且复杂的网络切片或元素,如物联网设备、移动用户、无人机(UAV,unmanned aerial vehicle)基站、低轨卫星节点等。这些异构网络实体需要通过集中或分布式的方式做出各种不同时空尺度上的决策,如网络和频谱选择访问、数据速率和发射功率控制、基站和卫星切换等,以实现包括吞吐量在内的不同网络优化目标的最大化和网络能耗最小化[32]。在高度动态和不确定的网络环境下,大多数决策问题可以建模为马尔可夫决策过程(MDP,Markov decision process)。尽管MDP在理论上可以采用动态规划、启发式算法和 RL技术来解决,但考虑规模庞大且复杂的现代网络,动态规划和启发式算法等技术会因计算量过于庞大而无法使用。因此,DRL已经发展成为克服该挑战的核心解决方案[33]。在空天地一体化网络中应用DRL方法具有以下优点。