一:智能体策略类型
多智能体系统下,每个智能体发出动作获得的奖励会受到其他智能体动作影响。多智能体系统的目标便是学习一种策略使系统达到均衡稳态。
1. 完全合作型
系统的最大奖励需要智能体的相互合作才能获得。
这类的应用场景有机器人足球、设备组装、并发控制和通信等。
2. 完全竞争型
一般采取最大最小化原则,即无论对方采取任何行动,智能体总是采取是自己受益最大的动作。
3. 混合类型
一般针对静态任务,直接对每个智能体应用单智能体RL算法,不需要了解其他智能体的算法。
二: 理论基础
MARL通常用马尔可夫博弈描述。马尔可夫博弈又称为随机博弈。马尔可夫指的是多智能体系统的状态符合马尔可夫性,即下一时刻的状态只与当前状态有关,与前面的时刻没有关系。博弈则描述了智能体之间的关系。
可以用如下元组描述多智能体系统:
N为智能体个数,S为系统状态,一般指系统的联合状态。T为状态转移函数,即根据当前系统的状态和联合动作,给出下一状态的概率分布。r为奖励。为折扣因子。
三: 优势与挑战
- 优势
- 不同智能体之间可以共享经验,从而更快、更好地完成任务
- 可以将大任务拆成子任务,不同智能体并行执行子任务
- 某个智能体出现问题时,其他智能体可以替代其工作,提升鲁棒性
- 系统可拓展性强
- 挑战
- 随状态、动作、智能体数码增加,计算复杂度呈指数级增长
- 学习目标难以定义
- 无法单独最大化某个智能体的奖励,难以收敛到最优解
- 探索过程复杂。不仅需要环境信息,还需要其他智能体的信息,过度探索还可能打破系统平衡。