在我们最新发表的论文中,我们构建了一个平均场博弈(MFG)模型来最小化信息时效性(Age of Information, AoI),通过优化无人机(UAV)的巡航控制实现这一目标。进而,我们基于近端策略优化(Proximal Policy Optimization, PPO)开发了一种新方法,该方法能够联合优化连续和离散动作。具体来说,我们利用无人机群来收集时间敏感的传感器数据。这类数据的及时收集受到无人机速度及其在群体中协调互动的影响,这些因素可通过MFG模型进行描述。因此,基于MFG的最优时效巡航控制对于无人机而言至关重要。
然而,在实际情境下在线确定平衡状态极具挑战性。针对这一难题,我们提出了一种新颖的平均场混合近端策略优化方案(MF-HPPO),旨在最小化平均AoI,同时优化无人机的飞行轨迹及地面传感器的数据采集调度,考虑了兼具连续与离散性质的动作。MF-HPPO在有效降低复杂度的同时,显著减少了平均AoI。
欲了解更多详情,请查阅我们的论文:
- IEEE Xplore: <https://ieeexplore.ieee.org/abstract/document/10508811>
- ArXiv预印本: <https://arxiv.org/abs/2405.00056>
该研究通过引入MF-HPPO框架,不仅解决了由连续和离散决策空间带来的计算复杂性问题,还通过集成长短期记忆网络(LSTM)预测网络状态的时间变化,增强了训练稳定性。实验结果显示,与多智能体深度Q学习(Multi-agent Deep Q-learning, MADQN)方法以及非学习随机算法相比,提出的MF-HPPO方案能将平均AoI降低最多45%和57%,显著提升了数据收集的时效性。