Dario Amodei Google Brain
Chris Olah Google Brain
Jacob Steinhardt Stanford University
Paul Christiano UC Berkeley
John Schulman OpenAI
Dan Mané Google Brain
机器学习和人工智能领域的快速发展由于其可能对社会带来的潜在影响越来越被人们关注. 本文,我们讨论了一个潜在的影响:机器学习系统中的事故问题,我们将其定义为可能会在设计不良的真实世界人工智能系统中出现的不可预知且具有危害的行为. 我们给出了五个实际的研究问题,这些相关的问题包括事故风险,根据问题来源分成了三类:错误的目标函数();过于频繁的评价代价过高的目标函数;或者在学习过程中不可预知行为. 我们对这些领域中的已有工作和与前沿人工智能系统相关的建设性研究方向进行了回顾. 最后,我们考虑了如何高效地思考未来人工智能应用的安全性的高层问题.
引言
过去几年中,我们看到了机器学习和人工智能领域的一些长期存在的困难问题的解决上快速发展,遍及计算机视觉、玩视频游戏、自动驾驶及围棋等各种各样的领域. 这些进展令人们对人工智能在医疗、科学、运输等领域的变革的正面影响倍感兴奋的同时,也带来了对于这些自动系统在隐私、安全性、公平、经济、军事等方面潜在影响的思考,另外更是对强大的人工智能的长期影响产生了深思.
我们相信人工智能技术很可能是完全有利于人类,但同样相信严肃地思考潜在挑战和风险非常值得. 我们还对隐私、安全性、公平、经济和政策方面的工作相当支持,但在本文中我们讨论另一类问题,这类问题同样与人工智能对社会影响有关,即机器学习系统中事故问题. 我们将事故定义为由于指定了错误的目标函数、不注意学习的过程或者引入了其他机器学习相关的实现错误而导致的在机器学习系统中不可预估的危害行为.
在机器学习社群中已经有大量不同领域的文献讨论了和事故(包含健壮性、风险敏感性和安全探索)问题;我们在下面进行回顾.
然而,当机器学习系统被部署在规模不断扩展的自治、开放场景时,非常值得去对这些方法的扩展性进行反思及理解降低现代机器学习系统中事故风险过程中存在什么样的挑战. 总之,我们相信存在很多具体的开放的与机器学习系统的事故问题相联系的技术问题.
现有大量公众对这些事故的讨论. 大部分讨论聚焦于极端情况,比如在超智能体中错误指定的目标函数. 然而,我们的观点是,其实不需要采用这些极端的场景来有效地讨论事故,实际上按照极端的思维方式会将我们引入到一个不必要的缺少准确性的推测性讨论的境地,比如在一些评论中提到的[37,83]. 我们相信通常最有效的方式是采用现代机器学习技术构建一个由实际的问题构成的框架. 随着人工智能能力提升以及AI系统在社会作用上的日益增强,我们期望在本文中讨论的根本挑战会不断重要起来. 人工智能和机器学习社区越来越成功地参与和理解这些根本的技术挑战,最终我们越能够成功地开发出更加有用、有意义和重要的人工智能系统.
本文的目标就是要聚焦于一些具体的当前就可进行试验的也和前沿人工智能系统相关的安全性问题,同样对与这些问题相关的已有的文献进行了回顾. 在第二节,我们使用机器学习经典方法(诸如监督分类和强化学习)来对事故风险减轻(这在公众讨论中常被成为“人工智能安全”)进行了建模.
我们解释了为何我们认为在机器学习领域中当前发展方向,比如深度强化学习和在更广的环境中的行动的智能体,能够给出越来越相关的对事故的研究. 在第 3-7 节,我们探究了五个具体的人工智能安全性问题. 每节都有相应的对相关实验的描述. 第 8 节讨论了一些相关的尝试,第 9 节总结.