新式平均场混合近端策略优化方案（MF-HPPO）

在我们最新发表的论文中，我们构建了一个平均场博弈（MFG）模型来最小化信息时效性（Age of Information, AoI），通过优化无人机（UAV）的巡航控制实现这一目标。进而，我们基于近端策略优化（Proximal Policy Optimization, PPO）开发了一种新方法，该方法能够联合优化连续和离散动作。具体来说，我们利用无人机群来收集时间敏感的传感器数据。这类数据的及时收集受到无人机速度及其在群体中协调互动的影响，这些因素可通过MFG模型进行描述。因此，基于MFG的最优时效巡航控制对于无人机而言至关重要。

然而，在实际情境下在线确定平衡状态极具挑战性。针对这一难题，我们提出了一种新颖的平均场混合近端策略优化方案（MF-HPPO），旨在最小化平均AoI，同时优化无人机的飞行轨迹及地面传感器的数据采集调度，考虑了兼具连续与离散性质的动作。MF-HPPO在有效降低复杂度的同时，显著减少了平均AoI。

欲了解更多详情，请查阅我们的论文：

- IEEE Xplore: <https://ieeexplore.ieee.org/abstract/document/10508811>

- ArXiv预印本: <https://arxiv.org/abs/2405.00056>

该研究通过引入MF-HPPO框架，不仅解决了由连续和离散决策空间带来的计算复杂性问题，还通过集成长短期记忆网络（LSTM）预测网络状态的时间变化，增强了训练稳定性。实验结果显示，与多智能体深度Q学习（Multi-agent Deep Q-learning, MADQN）方法以及非学习随机算法相比，提出的MF-HPPO方案能将平均AoI降低最多45%和57%，显著提升了数据收集的时效性。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

新式平均场混合近端策略优化方案（MF-HPPO）

新式平均场混合近端策略优化方案（MF-HPPO）

相关阅读更多精彩内容

友情链接更多精彩内容