AIXI ['ai̯k͡siː] 读作“爱柯西” 是一个对通用人工智能的理论上的数学形式化,结合了Solomonoff 归纳和序列决策理论,2001年由 Marcus Hutter 教授提出。
其核心是一个强化学习智能体,最大化期望最大化来自环境的奖励。它考虑了每个可计算的假设。在对应强化学习的定义中,该智能体在每个时间步都会看每种可能的程序并衡量采取下个行动时该程序生成的奖励。这个奖励使用该程序构建真实环境的主观信念进行衡量。这个信念从程序的长度计算而出:更长的程序更少被考虑,遵循奥卡姆剃刀原则。AIXI 然后选择有用所有程序的带权和的最高期望全奖励的行动。
定义
AIXI 智能体会序列化地和某个(对其随机和未知的)环境 进行交互。在时间步 ,智能体输出一个行动 ,环境会返回一个观察 和一个根据条件概率分布 的奖励 。然后进行重复。智能体期望最大化累积未来固定生命期 的奖励 。
给定当前时间 和历史 ,AIXI 输出行动定义为:
其中 表示一个单调通用图灵机,而 跑遍在通用机器 的所有程序。