人工智能向通用人工智能的跃迁之四——AXIX

AIXI ['ai̯k͡siː] 读作“爱柯西” 是一个对通用人工智能的理论上的数学形式化,结合了Solomonoff 归纳和序列决策理论,2001年由 Marcus Hutter 教授提出。

其核心是一个强化学习智能体,最大化期望最大化来自环境的奖励。它考虑了每个可计算的假设。在对应强化学习的定义中,该智能体在每个时间步都会看每种可能的程序并衡量采取下个行动时该程序生成的奖励。这个奖励使用该程序构建真实环境的主观信念进行衡量。这个信念从程序的长度计算而出:更长的程序更少被考虑,遵循奥卡姆剃刀原则。AIXI 然后选择有用所有程序的带权和的最高期望全奖励的行动。

定义

AIXI 智能体会序列化地和某个(对其随机和未知的)环境 \mu 进行交互。在时间步 t,智能体输出一个行动 a_t,环境会返回一个观察 o_t 和一个根据条件概率分布 \mu(o_t r_t | a_1 o_1 r_1 \ldots a_{t-1} o_{t-1}r_{t-1}a_t) 的奖励 r_t 。然后进行重复。智能体期望最大化累积未来固定生命期 m 的奖励 r_t+\ldots+r_m

给定当前时间 t 和历史 a_1 o_1 r_1 \ldots a_{t-1} o_{t-1}r_{t-1},AIXI 输出行动定义为:
\underset{a_t}{\arg\max} \sum_{o_t, r_t} \ldots \max_{a_m} \sum_{o_m, r_m} [r_t + \cdots + r_m] \sum_{q: U(q,a_1,\ldots,a_m)=o_1 r_1 \ldots o_m r_m} 2^{-\text{length}(q)}
其中 U 表示一个单调通用图灵机,而 q 跑遍在通用机器 U 的所有程序。

还有 38% 的精彩内容
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
支付 ¥3.14 继续阅读

推荐阅读更多精彩内容