Hello,我是Allport Jr.,喜欢学习的领域是认知心理、发展心理、特质心理、积极心理学以及心理学和人工智能的结合,致力成为心理界AI玩的最6的,AI界心理讲的最真的。这篇文章是特刊,我们来聊一个比较“前沿”的人工智能和心理学相关的研究。
1
一直以来,心理学家们通过对于人类认知和发展的研究慢慢揭示我们如何去学习、思考、理解周围的世界,而人工智能的科学家则期望创造出足以模拟人类智能的算法。两者之间互相启发,尤其是从认知心理向人工智能方向的输出。比如,认知PDP理论和深度学习之间的联系,人的神经元结构和深度学习网络之间的关系,LSTM受到工作记忆的启发,或者人的注意力系统和Attention算法等等。
目前,大多数的人工智能研究集中在使用以CNN、RNN为基础的模型去解决序列或者图像任务,这些模型其实与人类真实的认知过程有比较大的差异。但近日由Google的研究人员推出了一篇论文,探讨了在简单环境下模拟人类建立心理理论能力的人工智能算法《Machine Theory of Mind》(相关经典论文包括《Bayesian Machine ToM》和《Building Machines That Learn and Think Like People》等等)。
“心理理论”(Theory of Mind)是一个心理学范畴的概念,它指的是推测他人心理状态的能力。著名的Sally & Anne实验很好的说明了这个概念:
这个实验揭示了低龄儿童会犯的错误信念(False Belief)——他们觉得别人所看到的世界跟自己所看到的是一样的。而对于一个成年人来说,我们清楚对方可能拥有我们不知道的信息,同时我们也可能掌握了一些对方不知道的信息,我们具备推测他人心理状态的能力,所以我们能够轻松地通过Sally & Anne实验。
2
在我们的日常生活中,我们会基于周围人“性格”的过往了解,结合他们展示出来的一些特定行为,来预测在接下来的“交互”中,他们会有什么样的反应,并以此调整我们的行为。例如,当我们跟一个理解能力极强的人谈话时,无需将每个语句都表达到位,而当我们跟一个理解能力很弱的人谈话时,则不得不尽量把每句话的意思都表达得浅显易懂。这种判断和灵活的应对方式是人类提升效率,节省资源的策略。
这种策略对于机器来说也是一样。如果机器懂得“心理理论”,它就能够根据对手(们)来选择制定合适的策略战术。
下面我们来看看Google的研究人员是如何构建“模仿”人类感知周围环境及决策的算法并且完美通过Sally-Anne实验的。
Machine ToM论文中的网络ToM-Net主要由3个网络来构成,character net,mental net 和 prediction net。C-net通过观察过往的episode来对agent本身进行一个建模,相当于我们通过过往的经历来了解参与者的性格;M-net则描述当前这个episode当中agent的“心理”状态;最终P-net以C-net,M-net为输入加上当前的state来一起预测agent接下来的行为。而论文的实验环境是一个对现实世界做的简单模拟,在一个11x11的gridworld中,存在一个最终的goal,当agent到达goal方块时一个episode结束(不同的agent会对不同颜色的goal方块感兴趣),同时在这个gridworld当中会存在一个subgoal来给agent更多的奖励(reward),通常情况下agent会去先吃掉subgoal再去完成goal以期得到最高的得分。
而在实验环境下的Agent使用了不同的算法策略来完成这个“游戏”,从智能水平最差的随机策略一直到智能水平最高的基于强化学习的策略(DQN)。这些Agent所知道的“信息”也各不相同,这点通过他们不同大小的“视野”来模拟,从只能看到当前所处的单元到几乎全局都能看到的不同agent。这里ToM-Net并不清楚到底是哪种类型的Agent在进行这个游戏,不知道agent的内部结构,只有一些过往的episode行为记录以及观察到当前episode里这个agent的行为,基于这些信息ToM-net对这个agent接下来的行为作出预测。
为了检测ToM-net的心理构建能力,实验还巧妙地构建了一个Sally-Anne实验:当agent接触到subgoal的时候,有一定概率goal的代表方块会互换位置(比如agent所prefer的红色goal方块和蓝色的发生了位置互换),而这个位置互换可能发生在agent的视野之外也可能发生在视野之内。发生在视野之外就和Sally-Anne是相同的情况,一个合格的ToM-net应该会预测出Agent仍然会向原先它所认为的goal方块所在的位置移动;而如果变化出现在视野之内,那么Agent应该径直的走向最终的goal。
最终我们可以看到,Tom-Net完成了Sally-Anne实验,成功的预测出了不同Agent在环境中接下来的行为。
3
当然,这个实验所涉及的环境还相当的简单,笔者在Discussion的环节也提出,对于更复杂的环境(Agent可以有更多行为可能而不只是上下左右的移动的情况),更复杂的Agent性格以及多Agent共同参与的环境下ToM网络的构建还在研究中;另外,ToM-net是开了天眼的,我们人类可没有全局挂,在Partial Observe的情况下,怎么才能更好地对其他agent进行建模也是需要进一步研究的情况。
不过,这至少让我们看到了机器智能前进的又一小步。
首先它可以对行为做出预测和解释。在自动驾驶中,我们会用类似于Gaussian Naive Bayes模型配合Procss Model来对其他行驶在路上的车辆行为做预测,以此来规划我们自己的加速、超车、并线等行为。此类的ToM模型能够对路上的其他Agent行为进行预测,从而更安全、更舒适的提供驾驶策略。
另外,它可以根据对手(们)来选择制定合适的策略战术。许多类似Alphabetical算法都会认为对手会做出最优的选择,但在实际情况中,我们通过对弈能感觉出对手的水平,适当采用一些冒险但是更省力的方案来击败比我们弱的对手是一种更节省更高效的方式。假如机器学会了人类的“心理理论”,它会知道,在某些场景下,它只需要去获取一个“足够优的解”就好了。例如,AlphaGo跟我下围棋,它没有必要使出浑身解数,费力寻找一个“最优解”,甚至拿对付柯洁的一套来对付我,换一个专门对付臭棋篓子的适应算法就足够KO我了。这让我想起我和一个同事聊天提到当智能投顾充斥市场的时候会strike一个纳什平衡,但是其实这个发展的过程并没有那么一蹴而就,市场上会有很多不那么“智能”或者决策信息以及Capacity有限的投顾,那么这套ToM也许能给我们带来更多的利益。
---END---