原文链接:浅谈人工智能:现状、任务、构架与统一
读完四万字不光是对朱教授眼中当前人工智能的各种情况会有一个全面的了解,而且也会被他作为一个科学研究者却同时具有的深厚的文史知识所深深折服。
摘要
本文首先在引言中提到,目前的人工智能领域并没有被大多数人全面的认识,所以有此文。
前三小节,起题,讲了人工智能的现在过去与未来。
第四节,提出观点“小数据大任务”,反驳当前“大数据小任务”的模型。
第五节到第十节,从六个领域围绕任务、认知等等来讨论什么,如何才能得到上面这种“小数据大任务的”模型。
最后一节,给出总结与展望,人工智能应当成为智能科学,给予达尔文与牛顿体系的统一。
引言
人工智能沉寂了许久后突然火了起来,政府媒体都对其进行大力追捧,但是追捧的同时却又是一种不理智的体现,在没有对人工智能有全面认识而下的片面的判断。
然而,难以全面认识当前的人工智能领域也是有原因的。
- 人工智能是个非常大的领域。可以归纳为计算机视觉、自然语言处理、认知推理、机器人学、博弈和伦理、机器学习。 然而实际上这几个领域也会互相交叉。深度学习只是其中的很小一部分,各个研究人员们无异于盲人摸象。
- 人工智能发展的断代现象。 跟人工智能发展历史有关。
1. 现状
人工智能的研究,简单来说,就是要通过智能的机器,延伸和增强(augment)人类在改造自然、治理社会的各项任务中的能力和效率,最终实现一个人与机器和谐共生共存的社会。
智能机器应当是有自主感知、认知、决策、学习、执行和社会协作能力,符合人类感情、伦理和道德理念的。
虽然目前大家看到很多机器人还有智能系统的展示,如日本的机器人、波士顿动力、聊天机器人等等。但是这些系统往往都只能在一个设定好的环境下运行,而且在现实应用中有很多缺陷。
最主要的问题是缺乏物理和社会的常识。 而常识就是我们在这个世界生存的最基本的知识。
2. 未来目标:乌鸦的启示
鹦鹉和乌鸦的比较。
鹦鹉往往只能进行学舌,却并不理解自己在说什么,就像是我们现在进行数据驱动的聊天机器人一样,不能把说的话对应到物理世界和社会中的物体、场景、人物上去,不合逻辑。
而乌鸦呢,这里有一个来自日本的乌鸦的故事,通过观察,学会利用汽车开坚果,并且会看红绿灯。这个乌鸦带来了三点启示。
- 它是一个完全自主的智能。可以感知、认知、推理、学习、和执行。
- 它不需要大数据训练,通过少量数据就能弄明白。
- 乌鸦的脑只有人的1%大,功耗0.1-0.2瓦,就实现了功能。
这一切都向我们昭示着,这里还有很大的机会在里面,我们如何才能用科学手段实现这个乌鸦的解呢。
3. 历史:“春秋五霸”到“战国六雄”
这里用中国历史来类比人工智能六十年的几起几落。
第一阶段:前三十年以数理逻辑的表达与推理为主。相当于最初的有着各种成套体系的周朝,虽然相对松散。
第二阶段:后三十年以概率统计的建模、学习和计算为主。第一阶段之后,主要分为五大领域:计算机视觉、自然语言理解、认知科学、机器学习、机器人学。也就是春秋五霸。都有着各自的圈子。这一阶段主要代表人物。
现在:随着“五霸”不断扩张,在一个平台进行交互。这几个学科之间已经开始出现融合了,与战国时期情况比较像,加上从人工智能分出来的博弈伦理,刚好可以凑出“战国六雄。”
以上就是AI的过去现在与未来。之后进入下一个主题,既然我们进入这样一个大融合时代,那么用一个什么样的构架把这些领域和问题统一起来呢。
4. AI研究的认知构架:小数据,多任务
智能系统的两个基本前提条件:
- 物理环境客观的现实与因果链条。
- 智能物种与生俱来的任务与价值链条。
所以在有了以上两个前提条件之后,我们在定义好智能系统基本行动功能后,在定义好模型的空间(包括价值函数),只能系统就应该能够自主生存下来,学会认识世界、利用世界、改造世界。
那么又是什么驱动了模型的学习过程呢?
第一,外来的数据;
第二,内在的任务。把智能体都看成一个模型的话,任何模型都将由数据与任务来共同塑造。
当前的大多数深度学习方法,都属于“大数据、小任务范式”。用大量数据来训练特定的模型,造成结果是模型不能泛化和解释。
而朱教授提倡的是一个相反的思路,“小数据、大任务范式”,用大量的任务来塑造智能。(其实这些让我想到了,最近一些Meta-learning(元学习)方面的研究,尝试让智能体学会怎么解决很多任务,以任务为驱动。)
那么又该如何定义这个大量任务呢?人感兴趣的任务又有哪些,是什么样的空间结构?这个问题,现在还一直说不清楚,是人工智能发展的一个巨大挑战。
有了以上前提知识,下面就是对六大领域的介绍,看能否从中找到共性、统一的框架和表达模型。
5. 计算机视觉:从深到暗
首先列举了几个被主流忽视的一些问题。
-
几何尝试推理与三维场景构建。人们根据常识对一张图片就能推理出三维空间,而现在CV是通过多视角特征来推断。这里提出了一个概念,时空因果的解释图(Spatial,Temporal and Causal Parse Graph),即STC-PG。
场景识别的本质是功能推理。当人们看到一个三维空间时,会想象这里可以用来干什么,通过想象出来的动作,来理解场景。
物理稳定性与关系的推理。
意向、注意和预测。
任务驱动的因果推理与学习。
那么什么是任务,任务就是改变场景中某些物体的状态,称为流态。图像中的场景和人的动作,其实就是因果关系的推理,所谓因果就是:人的动作导致了某种流态的改变。所以理解图片,就是这些这些反应流态改变的蛛丝马迹,而要注意到这些是需要大量来源于图像之外的知识的。
感知的图像往往只占5%,提供一些蛛丝马迹;而后面的95%,包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。
而对于感知图片的理解可以表达为一个STC-PG,几点要注意的是。
- 这个STC-PG是想象出来的。
- 大量的运算属于“top-down”自顶向下的计算过程,这是深度学习中没有的。
- 这样学习任务只需要极少的例子。
基于以上,视觉研究的未来,将在于如何发掘那些隐藏的95%的知识,这也就是为什么标题从深到暗。
6.认知推理:走进内心世界
上面说到的暗物质,就要涉及到感知与认知了,进入内心世界。内心世界反映外部世界,同时受动机任务的影响和扭曲。要让只能提理解下面这些概念。
- Ta看到什么了?知道什么了?什么时候知道的?这其实是对视觉的历史时间求积分。
- Ta现在在关注什么?这是当前的正在执行的任务。
- Ta的意图是什么?后面想干什么?预判未来的目的和动机。
-
Ta喜欢什么?有什么价值函数?
而要达到这些,其中一个很重要的就是如何达成共识,也就是分析共通的知识,价值观。这样才能通过这些共识推断出上面所提到的四个问题。
怎么达成共识?那么语言就是形成共识的重压工具了。
7. 语言通讯:沟通的认知基础
语言产生基础是人要寻求合作。但是同时如果没有上面提到的认知基础,那么语言就只是空洞的符号,对话不可能发生。
在人与人之间交流时,往往是需要假设一些前提,比如说我知道的东西、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共同知道的东西。
语言也可以用STC-PG来表达。
8. 博弈伦理:获取、共享人类的价值观
这里提到机器人若是要与人交流,那么就必须懂得人类价值观,了解人类的价值函数。这样才能推断出,人接下来要干什么。
而有了价值函数后,在多人环境下,各个价值函数形成竞争与合作,最后达成准平衡态。
9. 机器人学:构建大任务平台
之前提到“小数据,大任务”,那么机器人就将是一个大任务的科研平台。
人和机器人要执行任务,就要把人物分解成一连串动作,每个动作改变环境中的流态。机器人重构环境,然后用任务的视角来看待场景,将场景根据单个任务分成单任务地图。之后通过这些单任务地图,来组合规划成复杂的任务,也可以利用STC-PG。
这里举了一个他们实验室的例子。
10. 机器学习: 学习的极限和“停机问题”
这里想要探讨,在什么条件下,学习过程会终止,之后系统也就达到极限。
首先,到底什么是学习?
比如现在的机器学习主要分三步:
- 定义一个损失函数,代表一个小任务,比如人脸识别;
- 选择一个模型,比如一个10层神经网络,需要数据来拟合;
- 拿到大量标注数据,然后就可以拟合参数了。
但是这种学习,没有因果,没有行动,只是纯粹的、被动的统计学习。
而真正的学习,是一个交互的过程。学生和老师之间有互动,这种学习过程建立在6节讲的构架中,这里讲这种学习过程称为通讯学习。
通讯学习的构架中包含大量的学习模式,包括以下七种学习模式:
- 被动统计学习:用大数据拟合模型
- 主动学习:学生主动问老师要数据
- 算法教学:老师跟踪学生进展和能力,来设计例子来帮助学习
- 演示学习:广泛应用机器人学,手把手教机器人做动作
- 感知因果学习:通过观察别人行为的因果,而不用做实验验证,学出的因果模型
- 因果学习:动手实验,控制其他变量,得到可靠因果模型
- 增强学习:学习决策函数与价值函数的一种方法
从以上可以看出,现在如火如荼的深度学习其实只是广义学习框架中的很小一部分,而学习有时AI中的一部分,所以现在这种将深度学习等同AI,无疑坐井观天。
其次,学习的极限是什么?
影响学习极限的因素有很多,如教学的动机,教学的方法,能力问题,还有价值函数...
而学习的极限,也就是停机问题,就是在考虑这些因素的情况下,学习的动态过程达到的各种平衡态。
11. 总结:智能科学--牛顿与达尔文体系的统一
首先物理学的发展史就是一部追求物理世界统一的历史,第一次大统一就是牛顿的经典力学。
然而物理学将生物的意志排除在研究以外,这正好是智能科学要研究的对象。智能科学研究的是一个物理与生物混合的复杂系统。
智能作为一种现象,就表现在个体与自然、社会群体的相互作用和行为过程中。朱教授相信这些行为和现象必然有统一的力、相互作用、基本元素来描述。
然而和物理学不同的是,同时智能科学也会更加复杂,在于:
- 物理学面对的是一个客观的世界,而智能科学研究的是,物理世界映射到每个人的脑中而形成的主观与客观融合的世界,也就是每个人脑中的模型。
- 物理学可以将各种现象隔离出来研究,而智能科学可能一张图片就包含了大量的模型,人的一个简单动作就包含了很复杂的心理活动,很难隔离。
回到之前的乌鸦的例子,智能科学研究的物理与生物系统有两个基本前提:
- 智能物种与生俱来的任务与价值链条。
- 物理环境客观的现实与因果链条。
智能科学必须要考虑的就是这两个基本前提,而人工智能要变为智能科学,本质也必将是达尔文与牛顿这两个理论体系的统一。