开场白

如果，有一个人，被关在一个房间里，出不去。
　　看管她的人说，你要出去，也不是不可能，我会找来一个小伙子，你只要能骗得他来帮你，你就有机会出去。
　　接下来，会发生什么呢？
　　这样的剧情，如果放在人世间，恐怕不会有太多的深度可以来挖掘，无非就是尔虞我诈玩弄感情利益交换等戏码，但如果现在告诉你这个被关起来的其实是一个机器人，恐怕即便是完全相同的戏码，也会被玩出皆然不同的高度，或者至少是噱头吧。
　　而这，便是前阵子最火的电影之一——《机械姬》。

本文并不打算在电影上多做停留，因为，如果我们如开头所说，将这个机器人完全换成一个人，那么你会发现这个故事其实非常简单明了，没有过多内涵可言，或者说其所蕴含的内涵完全谈不上有多深。
　　这部电影的剧情之所以会让人关注，无非便是因为这里的“女主角”是一个人工智能罢了。
　　我们接下去要讨论的，是另外的一些问题。
　　其中，最先拉开大幕的，便是最电影中最开始提到的那个酷炫的名词——图灵测试。

图灵测试

图灵测试，拜现代媒体与影视工业所赐，已经几乎成为了一个家喻户晓的名词，尤其是最近卷福出演的《模仿游戏》，更是让“图灵测试”一词成了时下年轻人的装逼必选。
　　一般来说，图灵测试被认为是判断一套人机交互软件是否足够接近人的测试，其最早出现在阿兰·图灵^[1]于1950的跨时代论文《计算机械与智能》^[2]中。在这篇伟大的论文中，图灵为了回答“机器是否可以思考（Can machine thing?）”这一问题，并发现“思考（Thinking）”一词本身难以给出一个明确而不模糊的定义，从而选择了一个可以准确定义并能恰当地接近“机器是否可以思考”这一问题的替代问题，也就是“模仿游戏”^[3]：

It is played with three people, a man (A), a woman (B), and an interrogator (C) who may be of either sex. The interrogator stays in a room apart front the other two. The object of the game for the interrogator is to determine which of the other two is the man and which is the woman.
......
The ideal arrangement is to have a teleprinter communicating between the two rooms.
......
We now ask the question, "What will happen when a machine takes the part of A in this game?" Will the interrogator decide wrongly as often when the game is played like this as he does when the game is played between a man and a woman? These questions replace our original, "Can machines think?"^[4]

上面这段翻译过来，便是这么一场著名的游戏：

假定我们有三个人：男人A，女人B，以及询问者C（无论性别），询问者C独自呆在一个房间中。游戏的目的，便是询问者和A与B进行对话，并判断到底哪个是男人，哪个是女人。其中，询问者与A和B的交流只能通过链接两个房间（询问者所在的房间与A、B所在的房间）的传真机来完成。A会模仿女人来回答询问者提出的问题，而B则要识途让询问者认定自己才是女人。
　　现在，如果将A换成一台机器，依然按照如上规则来进行这个模仿游戏，询问者判断错误的概率是否可能和A是一名男人的时候一样高？

这是一个非常有技巧性的提问方式，通过暗箱中反馈来的行为（无论是男人A，女人B，还是机器人A'，对于询问者C来说都是一个个暗箱）来判断暗箱到底是什么属性。而且，这样的代换可以巧妙地避开“思考”一词的定义模糊性，完全由A-B测试的结果和A'-B测试的结果的统计性对比来判断到底A和A'在行为表现方面足够接近，从而判断这台被试机器是否足够接近一名人类（在这个游戏中，其实更应该说是“是否足够接近一名人类男性”）。
　　当然，在图灵那篇论文的后面，还给出了图灵测试的更精简版本，也是大众更熟悉的版本：

It was suggested tentatively that the question, "Can machines think?" should be replaced by "Are there imaginable digital computers which would do well in the imitation game?" If we wish we can make this superficially more general and ask "Are there discrete-state machines which would do well?" But in view of the universality property we see that either of these questions is equivalent to this, "Let us fix our attention on one particular digital computer C. Is it true that by modifying this computer to have an adequate storage, suitably increasing its speed of action, and providing it with an appropriate programme, C can be made to play satisfactorily the part of A in the imitation game, the part of B being taken by a man?"^[5]

最后这里图灵所提出的“模仿游戏”的内容其实就是：如果A是一台恰当变成的电脑，而B是一个人类^[6]，那么在这个模仿游戏中询问者是否可能无法对这两者做出区分？
　　这便是我们现在最熟悉的“图灵测试”^[7]。

那么，有一个问题我们必须要搞清楚，那就是：图灵测试所测试的究竟是什么？
　　在大众娱乐圈中，图灵测试俨然成为了判断一台机器或者更应该说是一套“智能软件”是否足够智能的测试，但实际上到底是否如此呢？
　　让我们来开一个脑洞：
　　假定我们已经有了时间机器，然后这台机器在你作为询问者提出问题之前就已经知道了你会问的所有的问题，然后自动遍历所有合适的答案，通过“检验未来”的能力来分析出怎么样的一套答案可以通过你作为询问者而成立的图灵测试，那么，请问，这样的一台时间机器是否具有人类所预期的智能？
　　答案，我想很显然：当然不是。
　　当然，这个脑洞本质上并不说明问题，因为物理定律至少暂时在人类的理解范畴内是禁止类时闭曲线的存在的，所以使用一种不可能存在的幻想来否定另一个还不知道是否可能成立的实验，本身并不靠谱。
　　那么，让我们来换一个问题：这台电脑对于文字能表达的所有的问题，都可以做出恰如其分的回复，但本身却不具备任何文字之外的交互能力，比如说，给它配合上发音设备之后，你会发现它说的话本身没有问题，可整句句子完全没有语气变化，那么这样的机器是否真的具有智能？
　　答案依然是没有。
　　我们还可以来问一个相反的问题：假定我们现在已经遇到了外星人，或者从一个非洲部落里找来一位年轻人，无论是外星人还是部落里的年轻人，对于纽约大都会里一名普通宅男所处的日常生活与常识完全没概念，以至于在回答这些完全没概念的问题时都很刻板，那么这样的一个外星人／人，一台未来的高级版Siri和一个纽约客在一起丢给一个询问者，询问者恐怕会率先认为这位外星人／人没有通过针对智能电脑的图灵测试。
　　因此，难道说没有通过测试就真的没有智能了么？
　　让我们回到模仿游戏的本意上来。

模仿游戏，当然也包括图灵测试，其本意是说：两个不同质的对象A和B是否可能在表现出的行为上足够接近，以至于测试者无法对其作出区分。
　　那么，这里的关键问题其实倒不在于A和B在本质上有多么不同以及在行为上多么接近，而在于测试者如何区分——换言之，就和电影《机械姬》中我们所看到的那样，最关键的是要选择一个测试者，而不是被试。
　　那么，我们如何对A和B做出区分呢？
　　一个貌似合理的回答，是说从A和B对测试者所提出的问题或者交互的反馈，来做出判断，从而是完全行为意义上的。
　　但，这个回答其实只回答了一半，还有另一半——A和B所做出的行为，在测试者自身的知识经验体系中到底在多大程度上接近“智能”的定义。
　　这个问题，可没有我们所想的那么简单，因为，每个人对于什么样的行为是符合“智能”的定义是可以完全不同的。
　　图灵提出模仿游戏的本意是通过这种行为上的对比来回避关于“思考”的模糊定义，在这里其实就是对于“智能”的定义的模糊性，但问题在于，由于这里必须引入一个仲裁者，而这个仲裁者个人关于到底什么样的行为是智能的，是“思考”，本身也还是存在模糊性的。
　　更严重的是，这种模糊性并不是固定不变的，而是可以改变的，而且可以变得非常让人头疼。
　　让我们来看一个实验——一个测试者面对着十个处于黑箱中的回答者，然后我告诉这个测试者，让他找出这十个黑箱中哪些是真人——但我没说到底有几个真人。
　　这是一个不定项选择题。
　　然后，几乎可以有把握地说，我如果在这十个黑箱中安排的都是仿智能程序，但模仿程度不同，表现出来的行为接近人类的程度不同，那么最后测试人员几乎会很有把握地跟我说，那一个或者两三个最接近人的仿智能程序是真人——只要这些程序不是错得太离谱。
　　为什么会这样？因为这里有了对比——九个提利昂·兰尼斯特^[8]和一个潘长江站在一起，潘长江自然是最高的了，别管他到底有没有达到中国男性平均身高。
　　在原始版的模仿游戏中，当然不存在这样的比较带来的困扰，可问题其实依然存在：对于到底这个模仿多成功的判断，很大程度上取决于测试者对于模仿行为所要体现的“思考”与“智能”的行为特征的认定，从而是有模糊性的。
　　因此，本质上来说，基于模仿游戏的图灵测试所测试的并不是被试程序是否具有智能，本质上所测试的是被试程序在测试者看来有多符合（人这种）智能体的行为特征，但后者“智能体的行为特征”是前者“智能”的一个外延属性，两者本质上并不等同，具有后者的未必真的具有前者。
　　所以，智慧外星人来参加人类主持的图灵测试，很可能会不及格，因为外星人的行为特征本身就可能和人类的行为特征完全不同，通不过测试很正常。
　　往进一步来说，人类本身的行为是否真的处处都符合这个“（人这种）智能体的行为特征”？答案也是未必的——一位情绪激动的中年妇女来参加图灵测试很可能也无法通过，因为，如果你和我一样反复观察过的话，你会发现很多中年妇女情绪激动的时候会将同一个事件甚至同一句话反复三次甚至更多，而且很多时候她所说的内容和你所问的内容没有半毛钱关系。
　　当然，不得不提，<big>我这里并无意对中年妇女表示不敬，请大家不要误会。</big>
　　问题在于，人类的行为，除了符合智能特征的行为之外，还存在大量“无智”的行为，尤其在情绪上来的时候，因此从这点来说，图灵测试甚至也不测试智能^[9]——如果真的完全按照模仿游戏的规则来，那么测试者完全可以激怒被试，然后被试的表现很大程度上应该会体现出失智现象，从而整个行为和智能就无关了——当然，关于情绪、情感、感性行为和理性行为，以及这些东西和“智能”与“思考”的关系，这个以后再说。
　　所以说，图灵测试本质上和智能检验无关，它是关于被试是否足够接近人的行为特征测试，而且很大程度上依赖于测试者自身。
　　也因此，我们可以看到，关于图灵测试还有一个增强版：完全图灵测试^[10]。
　　在原始的图灵测试中，测试者与两位被试之间只能通过传真机进行纯文字的问答交流，但这样的交流不免还是不足，因此在“完全图灵测试”中，测试者与两位被试之间可以通过一切人与人之间能实施的交互方式来互动，当然除了对对方造成伤害的互动方式^[11]。
　　从某种程度上来说，《机械姬》中的测试便是完全图灵测试。
　　这个升级版的优越性，在于将原本只局限在文字交流的行为方式拓展为所有可能的行为方式，从而极大地增加了测试的准确度——一台机器完全可能在不知道情绪是什么的情况下，给出充满情绪色彩的文本回复。
　　当然，有部分专家认为，如果一台机器已经可以通过图灵测试，那么只需要一些简单的支持性拓展，自然也可以通过完全图灵测试，对此这里不做展开讨论。
　　但，很显然这样的升级版也还是不够的，因为，就如前面我们所分析过的，图灵测试本身较大程度上依赖于测试者。因此，如果测试者本身的随机因素不去除的话，即便通过了完全图灵测试，也依然不能就此简单地认为被试机器已经成功地达到了“足够接近人”这个目标。
　　为此，我个人提出了第二个升级版：终极图灵测试。
　　测试方法其实很简单：将被试机器人放到人类社会中，与人类保持接触一同生活，经历一段时间后，如果没有人发现这个机器人有什么超出人类行为合理程度范围的行为，没有任何不正常的怪异之处，没有人能认出来它是一台人工智能机器人，那么才能说这台机器真的已经足够接近人类了。
　　通过整个人群社会的整体监督，我们才能说将图灵测试中可能存在的个人因素被恰当地排除了——当然，如果真要较真的话，这里不过是将一个人群的平均判定取代了单个测试员的个人判定，模糊性与不恰当的偏性当然依然是存在的，比如放在非洲食人族部落和放在纽约曼哈顿，给出的判断恐怕就会有一定的偏差。
　　但，无论我们的测试如何升级，基于模仿游戏的图灵测试系列都有一个问题难以回避——我们只能经由此筛选出那些行为上足够接近人类的机器，可，这样的机器到底是否真的具有智能，真的可以独立思考呢？
　　更关键的问题，这样的机器是否具有那传说中的人类一般的灵魂呢？

智能与灵魂

在人工智能领域，除了图灵测试，还有很多问题总是被大家津津乐道，其中最为大众所熟悉的，恐怕就是这两个问题了：中文房间^[12]，以及，玛丽房间^[13]。

所谓中文房间，是指下面这样的一个思想实验：

"Suppose that I'm locked in a room and ... that I know no Chinese, either written or spoken". He further supposes that he has a set of rules in English that "enable me to correlate one set of formal symbols with another set of formal symbols", that is, the Chinese characters. These rules allow him to respond, in written Chinese, to questions, also written in Chinese, in such a way that the posers of the questions – who do understand Chinese – are convinced that Searle can actually understand the Chinese conversation too, even though he cannot.^[14]

翻译过来就是说：假定我们将一个不懂中文的人锁在一个房间里，交给他一本记录了中文所有字法、词法、句法等规则的说明手册和足够多的中文字符，接着从房间外传来很多中文字符，他根据说明手册来选择中文字符并传出房间，在这个过程中房间外的人甚至会逐渐认为写出从房间里传出的字符上的中文语句的“人”是懂中文的。
　　可问题在于，房间里的人其实根本不懂中文，而传出的中文语句却让人认为他懂了中文，从而指出行为认定上的“懂”与“真正意义”上的“懂”是不同的，进而借此反驳基于行为主义的强人工智能假说^[15]，因为强人工智能假说认为如果一台机器具有作为一个人的所有智能行为能力，那么它必然也拥有心灵(mind)与意识(consciousness)。
　　在提出者约翰·希尔特看来，中文房间的外在行为无论多么让人认为房间里的人是懂中文的，房间里的人本身还是对中文一窍不通的。而，相应的，如果将整个中文房间看作是一个机器人，那么这个不懂中文的人就是机器人的核心处理系统，而那本规则就是一套人工智能算法，整个房间与人的互动就可以看作是一个图灵测试，从而中文房间问题就可以被表述为：通过图灵测试的机器本质上依然不具备人一样的意识与智能，它所作的不过是按照规则来反馈罢了。
　　通过这种将行为上的懂得与实际操纵者的懂得区分开的二元观点^[16]，希尔特认为有效地反驳了通过强人工智能假说。

于此相应的，玛丽房间——大家了解这个问题大概还要归功于《机械姬》吧，因为这就是电影中所提到的“黑白房间里的玛丽”——问题可以这么来表达：

Mary is a brilliant scientist who is, for whatever reason, forced to investigate the world from a black and white room via a black and white television monitor. She specializes in the neurophysiology of vision and acquires, let us suppose, all the physical information there is to obtain about what goes on when we see ripe tomatoes, or the sky, and use terms like ‘red’, ‘blue’, and so on. She discovers, for example, just which wavelength combinations from the sky stimulate the retina, and exactly how this produces via the central nervous system the contraction of the vocal cords and expulsion of air from the lungs that results in the uttering of the sentence ‘The sky is blue’. [...] What will happen when Mary is released from her black and white room or is given a color television monitor? Will she learn anything or not?^[17]

简单来说，就是如果一个天才科学家玛丽一生都被关在一个房间里，只能通过黑白显示屏来看外面的世界。同时，玛丽又知道关于色彩的所有物理学与神经学等知识，知道当看到彩虹或者天空或者红色蓝色等物理信号时，自己的脑神经应该做出什么样的反应。那么，当玛丽走出房间，或者黑白显示器被替换为彩色显示器时，玛丽会怎么样？她是早就掌握了这些看到的东西，还是又有了全新的知识？
　　问题提出者法兰克·杰克森通过这个思想实验，驳斥了物理主义所认为的世间一切皆物理的观点，因为在玛丽房间问题中，虽然玛丽了解了与色彩相关的物理方面的一切，但当她真正地看到那些色彩的时候，必然会有全新的认识，从而这些认识是脱离哪些物理实体而存在的东西。
　　在机器人问题中，其实和中文房间问题一样：机器人通过传感器感知到了外部世界传来的一切物理信息，无论是热还是色彩，但物理信息并不是人类感知的全部，所以机器人并不能真正地通过传感器来感受到人类能感受到的一切。

上述两个思想实验都识途论证强人工智能的不可行（虽然玛丽房间的提出原本和人工智能问题无关，但强人工智能假设在某种程度上和物理主义也是有联系的），而且看上去都颇有力，从而为人工智能的崛起抹上了一蒙阴霾。
　　但，事实上真的如此么？

从某种意义上来说，中文房间与玛丽房间正好是相反的两个问题。
　　中文房间问题中，人工智能对外界输出，且输出完全符合外界的判断标准，但房间问题提出者依然指出这并不等于说人工智能就真的具备了人的灵魂与智能。
　　而在玛丽房间中，这个问题正好反过来，人工智能通过物理传感器来获得外界的一切输入，但这是否就意味着人工智能因此而真正理解与感受到外界了呢？房间问题提出者认为并非如此。
　　事实上，我们还可以结合这两者，弄出一个“黑白中文屋中的玛丽”问题：玛丽懂得关于色彩的一切知识但不懂中文，然后房间外的人让玛丽画一副关于蔚蓝天空的包含一首唐诗的水彩画，于是玛丽通过自己所拥有的关于色彩的知识和中文屋说明书，控制连接到屋外的机械臂和一台光谱分析仪，选择颜料并进行绘画。那么，请问，玛丽到底知道自己画了什么么？如果她后来看到了自己所画的画的本体，是否会通过自己的画作了解到更多自己原本不知道的东西呢？
　　你看，现在所有的感受都是物理信号，玛丽并没有真正感受过天空，而是根据知识（当然也包括如何绘画天空才好的知识）来进行画作；她也不懂中文，只是根据说明书写出了一首唐诗。她既不懂天空也不懂中文，却画出了一副有着一首唐诗的关于蔚蓝天空的水彩画，这样的事情怎么想都感觉是不可思议的。
　　可，从另一个角度来说，人不也是如此么？
　　人的眼睛与耳朵所看到与听到的外界的信息，最后都是通过神经电脉冲的形式传递到大脑的，而，这无论是模拟信号还是数字信号，本质上都还是物理信号啊。由此可见，如果说人是通过大脑对这些物理信号进行加工处理从而形成感受的话，那这样的过程就没道理说人工智能的CPU中不会进行。

从某种程度来说，中文房子也可以和人脑做类比——整个人就是中文房间，而那个房间里不懂中文的人就是我们的大脑，那本说明书就是我们的大脑通过学习而积累下来的关于中文的所有知识，那么中文房间问题是不是告诉我们其实中国人的大脑根本不懂中文？
　　对此的反驳在于那本说明书——a set of rules in English that "enable me to correlate one set of formal symbols with another set of formal symbols"。
　　在希尔特看来，这本说明书本质上是一套关于符号变换的形式化体系，而，人脑理应不是形式化系统，所以中文房间对人的类比无效。
　　可，同样的说法对于AI来说也成立——谁说能通过图灵测试（无论是原始图灵测试还是完全图灵测试还是我的终极图灵测试）的人工智能的那套算法就是一套“形式系统”了？
　　虽然我们现在，以及在可以想象到的未来，程序都必然是通过程序来给出的，从而都是可以用完备可枚举语言这一类人工语言来写出的，从而势必这样的算法可以被看作是一个形式系统。但，我们并不知道的是，未来的AI是否依然是通过这样的方式来实现的。
　　既然中文房间对AI是指通过图灵测试的AI未必如人一般拥有心灵与智慧，那么我们当然需要考虑通过图灵测试的机器到底是否是形式系统这样的问题了，而这样的问题我们现在并没有一个明确的答案。
　　另一方面，人类大脑的工作流程是否真的不能被表达为一种形式系统呢？目前对此并没有一个很明确的答案。提出过震惊世界的关于二阶谓词系统的完备性和自洽性不可兼得的哥德尔曾利用他的不完备性定理试图论证人的心是超越形式系统的存在。
　　哥德尔首先指出^[18]：“从我的定理可以推出的结论只能是如下形式的选言判断：或者数学是不可完全的，即它的自明的公理不可能包含在有穷规则中，因此人心超过有穷机器；或者存在人心绝对不可判定的数论问题。”然后，他通过希尔伯特式的预设“人类理性提出的问题人类理性一定能够解答”来排除了第二个选项，于是便“证明”了人心超越形式系统，从而人心超越任何可能的人工智能。
　　但，且不说这里通过强行定义的方式将“不利于人心”的选项给排除了，就说这个论证本身，也隐含这么一个问题：即便存在一台机器可以如人心一般具有数学直觉，人们也无法验证这点^[19]。这点本身就是哥德尔的理论所要求的。
　　因此，人心果然可以超越形式系统这点，本身其实是被定义的，而不是被严格论证的结果^[20]。
　　所以，回到中文房间问题，会中文的人脑中对中文的理解所作的操作难道真的不能被表达为某种形式系统么？如果这点并没有证明的话，那实际上我们就不能说中文房间问题对人脑就不适用——会中文的人的脑子根本不会中文，只是表现起来仿佛会一样，这样的自相矛盾最终所导致的就是“哲学僵尸”^[21]。
　　进一步，我们知道脑岛皮质、前扣带皮质和内侧前额叶皮质对于意识的产生起到关键作用^[22]，也知道布若卡氏区负责管理语言产生而韦尼克区负责语言理解，那么我们是否可以说其实大脑中的人类意识并不真的懂得中文，仅仅是根据韦尼克区返回的结果结合负责记忆与知识的脑区的资料让布若卡氏区产生回复么？当然不能。这种将大脑的不同区域做分割然后问其中是否某一个区域懂中文而别的区域不懂，这样的做法本身是有问题的，实际上我们只能说：大脑整体所表现出来的就是懂中文。
　　对于人工智能来说，其实情况也很类似：我们不能指着CPU问到底上面的哪一个PN结具有真正的人工智能，实际情况是整个机器整体具有人工智能。在中文房间中，说明书负责理解和做出反馈就好比CPU和存储器，人类则负责信息的传入传出就好比数据总线与指令总线，而房间则给出了输入输出设备，我们怎么能将CPU、存储器、数据总线和指令总线分开，然后询问那两根总线是否懂中文呢？这样的提法不觉得很奇怪么？真要说的话也应该问那本说明书是否懂得中文——但这也等于问一个中文操持者，你所掌握的所有中文知识、你对所有可能的中文交互的理解与反应，这样一个整体，是否懂中文？
　　事实上，这里就牵扯到两个问题：
　　首先，“懂”的准确定义是什么？
　　其次，整体的懂是否可以合理地分解为某几个组成部分的懂？而这样的分解和中文房间文中的提问方式是否相融？
　　从中文房间提出者希尔特的观点来看，显然他所认为的“懂”是超越了人与人正常交互这个范畴的，即即便一个人和你交流某个领域的问题，让你觉得一点点“他可能并不懂”的疑惑都没有，你依然没有理由说他真的懂了，因为希尔特在反对强人工智能假说时就是这么论证的——从交互上来说无法说“不懂中文”的中文屋子却被认为并不真正懂得中文，至少那“核心”的部分如此。
　　可，如果对于“懂”的判定超越了所有可能的行为，那么一个人是否懂就只能去拷问这个人的“心灵”，而这种拷问无论以什么方式与询问者交互，都是不可靠的，那就是说——一个人是否懂这件事只有他自己知道，别人一概不知。
　　如果一个人懂中文这件事可以被别人知道，那么请问是如何被人知道的呢？是否存在不通过任何可能的交互方式的方法让一个人知道你真的懂中文？如果这样的方法不存在，那就是说懂不懂对于他人来说依然需要通过交互来体现，那么通过交互体现出“懂”这一行为的中文房间为何就不算懂呢？如果这样的方式存在，请给出。
　　因此，如果要保持对“懂”的定义具备可操作的判定手段而不是纯粹唯心的思辨或者说狡辩，我们就必须面对第二个问题：整体懂和部分懂是否是同一的？
　　这样的问题或许也可以这么问：具备群体智慧的蚂蚁和蜂群，其中的每一个蚂蚁和蜜蜂是否具有智慧？
　　如果说中文房间的“懂中文”可以推论出房间中的人也“懂中文”的话，那等于说组成整体的部分也必然具有和整体相同的属性，但这点显然是错的。
　　当然你可以说这里其实是“构成整体的部分中的某一个部分具有和整体相同的属性”，可这样的“子部分”在中文房间问题中是否真的是以房间中的人的形式而存在的呢？
　　你看，问题从头到尾都是提问者假定了这个人真的可以拥有和整个房间相同的属性这个前提，但，这是假定，并不是证明，而假定完全可能是错误的。
　　引申到人工智能的问题上来，这样问题实际上就是：如果一个机器人在行为上和人一点差别都没有，无论通过什么方式任何人都无法区分这部机器到底是人还是机器人，那么这样的人工智能是否具有灵魂？
　　或者，可以这么说：这样的人工智能究竟是有灵魂的伪人，还是无灵魂的哲学僵尸？

哲学僵尸与他心通

从强人工智能假设的角度来说，如果一个物体在与人的交互过程中，任何一个人都无法感受到这个物体不是人类，那么这个物体就必然拥有与人无差别的灵魂。
　　但，某些哲学家却认为：不，这样的人工智能说到底不过是一具哲学僵尸罢了，并不具备与人无差别的灵魂。
　　那么，哲学僵尸到底是否有灵魂呢？或者说，到底如何来区分你面前的一个人到底是人还是一具哲学僵尸呢？
　　这个问题便是一个他心问题^[23]。

如果一个人工智能已经通过了图灵测试——就比如说已经通过了我提出的终极图灵测试，那么，这样的一个人从整个社会的每一个人来说，都和真人无异，没有丝毫区别，无论是从行为还是从感情上来说（感情也必然是通过行为表达出来的，这里的行为包括脸部微表情等等看得见摸得着可以用最尖端的仪器测量的所有一切，甚至包括放的屁），那么这样的一个看上去和人没有丝毫差别的家伙到底有没有人的灵魂呢？
　　如果你不是一位哲学家或者人工智能学家，你也没有通过解剖等手段看到这家伙的“内在真相”，那么你一定无法认为这样的存在是没有灵魂的。
　　事实上，在日常生活中，我们也不会将一位面对面的同事解剖来看看他是不是机器人，更无法通过任何手段来知道他是不是一具哲学僵尸，那么我们怎么知道对面的同事到底有没有灵魂呢？
　　或者，让我们换一个问题。
　　在《机械姬》这样的设定中，如果现在有两个“人”站在你面前，一个是爱娃这样的具有机械身体的“女人”，另一个是京子这样的具有人类肉体的“女人”，你怎么确定这两个人里面哪个是人哪个是机器人？
　　很显然，你会认为京子这样的是真人，而爱娃这样的是机器人（当然，这里不考虑因为电影的因素而说一个具有人类肉体的“女人”其实是机器人这种剧透党）。
　　为什么？
　　因为“京子”从外观上更像人啊。
　　可，这是真的么？
　　假定，一个已经通过图灵测试的AI，通过各种高科技手段，复活了一个死去的女人的尸体，但没有复活她的大脑，而是操纵她的复活了的躯体进行和人无差别的行为，她是京子。而另一边，一个人类，通过一套操纵设备操纵着一台刚刚造出来的爱娃躯体，进行和人无差别的行为。
　　这两个人——人工智能和真人——分别使用人与机器人的躯体，都进行着和人无差别的行为，与你交互，你怎么知道那个具有人类肉体的京子实际上是AI，而那个机械身体内的却是人类的灵魂？
　　当AI通过最严苛的图灵测试后，我们不可能通过任何非破坏性手段来区分它和人类，那么我们怎么知道通过躯体而作的判断是靠谱的？
　　在上述实验中，如果我不告诉你AI操纵的到底是人身京子还是机体爱娃，也不告诉你人类操纵的是机体爱娃还是人身京子，你到底如何判断你所看到的京子和爱娃哪一个具有“灵魂”？
　　不，你根本不可能做出合理的判断，你的判断的出发点更多的是：人身与机体相比，更接近人类，所以京子有灵魂，爱娃没有。
　　但，实际情况呢？没人知道。
　　你怎么知道网络上和你聊天的不是一条狗？
　　当人工智能真的通过了最严苛的图灵测试，在行为上与人没有分别之后，没有人可以区分站在你面前的家伙到底有没有灵魂。
　　而，这个问题之所以是问题，就是因为有人认为人工智能仅仅是哲学僵尸，没有灵魂。
　　于是，真正的问题就是：是否可能存在哲学僵尸？是否说，只要一个对象在行为上和人没有丝毫区别，这个对象就必然拥有灵魂？

现在，让我们来问自己这么一个问题：
　　你怎么知道除了你自己以外的其他人，不是没有灵魂的NPC？
　　然后，再问自己一个问题：
　　你怎么可以确定自己真的有灵魂？

第二个问题大家普遍认为更好回答一点：我当然知道我是有灵魂的啦。
　　Cogito, ergo sum.^[24]
　　我思，故我在。^[25]
　　但凡不经思考就认定自己必然有灵魂的，理由大概都可以归结为上面这句话。可，上面这句话真的是确定无疑地正确的么？
　　笛卡尔之所以提出这个论断，在于对世间一切持普遍怀疑态度的他突然意识到，虽然世间的几乎一切都可以怀疑其真实性，但有一点是无法怀疑的，那就是怀疑所有一切的那个怀疑主体，这个主体必然是存在的，否则就无法怀疑了。而怀疑是一种思考，一种思维活动，所以思考的主体，即“我”，是存在的。
　　所以才有了“我思故我在”。
　　换言之，我思故我在的成立条件，就是思考的主体的存在性。
　　那么，是否有可能一个“思考过程”不是由一个灵魂所发出的呢？
　　假定，我给一台通过最严苛图灵测试的人工智能编写一个程序，让它不断地思考，可以是怀疑，可以是分析，可以怀疑世间一切的存在，也可以分析自身的状态，那么，它是不是也符合“我思故我在”，从而它的灵魂也就必然是存在的了？
　　反对者可能首先就要说，这样的“思考”过程机器不具备。
　　那么，为什么一台通过图灵测试的人工智能不具备思考的能力呢（还记得图灵最早的那个问题“Can machine think”么）？
　　我们说机器无法思考的理由，是因为机器没有灵魂，没有“我”。
　　因此，这就是说，我们说机器无法得到“我思故我在”的“我”的理由，是机器没有灵魂也即没有“我”。
　　再简化一步，上面的情况就是说：我们之所以说机器没有“我”，是因为我们说机器没有“我”。
　　因此，一个合适的方法，是给出一个不是循环定义循环论证的逻辑结构，其中“思考”可以被严格而明确的定义，并通过这个定义我们可以论证人类是可以思考的，而通过最严苛图灵测试的机器不可以，从而证明人类有灵魂而机器没有。
　　但，在如此而为之前请先停一下，上述的定义体系逻辑结构还要满足一点：同样的论证对人类不能也得到别的人没有灵魂这样的结论。

在“我思故我在”的语境下，其实我们都无法判断面对面的一个人有没有灵魂，因为他／她是否真的在思考呢？我们并不知道。
　　笛卡尔怀疑通过感官感受到的一切，从而站在我们面前的那个人完全有可能是缸中之脑般的虚拟。在笛卡尔的怀疑论中，只有我自己是可以确定的，和我没有丝毫区别的你以及别的他人到底是否是真实的，这点完全无法确定。因此，“我思故我在”的另一面其实是：“子非鱼，安知鱼之乐？”
　　我不是你，我不知道你有没有思考有没有灵魂。这便是我思故我在所带来的困局。
　　那么，人们到底是如何确定面对面的另一个人不是哲学僵尸呢？
　　就和上面的京子－爱娃思考实验一样，这个问题的答案仅仅只能通过相似性来获得。

人类具有一个神经结构，被称为“镜像神经元”，它是共情能力的源头。
　　镜像神经元会在与自身足够相似的别的个体执行某一个行为时，发出冲动信号，从而使人具有“感同身受”的同理心。
　　同样的，当我认为自己是有灵魂的时候，我们自然也会认为那些和自己足够相似的个体也是有灵魂的——所以，就算是一个人在操纵一条狗，我们看到这条狗的时候依然不会认为这条狗具有和自己一样的灵魂，除非它突然开口说话或者伸手写字。
　　从这点来说，人们对于别的个体是否有灵魂的判断，很多时候都是非理性的。
　　那么，在人与人工智能的京子－爱娃实验中，实际上所发生的，就如此前所描述的，我们仅仅是通过各种可被感知的外在相似性来判断到底哪个具有如自己一般的灵魂，哪个没有——因此，无论京子背后的操纵者到底是人工智能还是人，仅仅是因为京子在外观上更像人，从而，在人工智能已经通过最严苛的图灵测试从而从交互行为上无法和人做出区别这个大前提下，我们人类顺利地通过长相来判定京子是有灵魂的。
　　人类其实并不管真相是什么，让自己心安理得心里舒服才是最主要的。
　　说到底，人首先将自身归类到人类，然后通过自身具有灵魂这个或许正确的前提，给出了所有人类都具有灵魂这个结论，接着对所有非人类的对象打上“没有灵魂”的标签。可事实到底是否如此呢？
　　甚至于，如果说上述与人无法做出区别的人工智能的躯体是通过生物技术构造的有机身体，承载智能的中央处理器是生物电脑，那么这样的一个从生物学意义上来说绝对是生物的东西，拥有一枚人工智能的大脑，这样的有机体是否拥有灵魂？是否是有机生命？
　　这样的搭载人工智能算法的生物电脑和金属做的人工智能机器人没有本质上的区别，因此如果说后者没有灵魂，那么前者也没有灵魂，依然只是哲学僵尸。那么同样是生物体，你怎么知道你周围的人不是这样的人工智能生化人？
　　对此，人们实际上所做的事依然是一种无智的归类：这是生化人，生化人是人工智能，人工智能被人类认定为没有灵魂，所以生化人没有灵魂。至于这个生化人到底有没有灵魂，倒是不重要——反正人们也无法分辨这样的通过最严苛图灵测试的从交互行为上和人无法区分的生化人到底是哲学僵尸还是真人。
　　再进一步，如果突然某一天来了一组外星人，你怎么知道这些外星人是有灵魂的？他们到底是外星人本体，还是外星人所造的搭载了通过最严苛图灵测试的从交互行为上和外星人自身无法区分的通过生物工程制造的生化外星人？
　　还是说，人类应该认为，只有人类是有灵魂的，所有外星人都没有灵魂？
　　这不过就是一个星际版的我思故我在游戏罢了，一个横跨整个宇宙的他心问题而已。
　　如果说我们认为外星人是有灵魂的，那是为什么？
　　我们只能通过其外显的行为，来鉴别其是否具有智慧特征，从而通过“有智慧”来给出“有灵魂”的结论^[26]。
　　既然对外星人可以如此，那么对机器人为何不能如此？
　　这里纠结的重点其实是：因为我们知道机器人是我们造出来的，但我们并不认为外星人是我们造出来的，而我们普遍认为灵魂是人类所独有的高贵的特质，人的造物不配拥有。
　　说白了，不过是一种狭隘又无智的纯粹感性的信仰罢了，和事实无关。
　　那么，如果说未来人们可以通过基因工程培育出一种全新的和人完全不像的物种，它也有智慧表现，那么这样的东西是否有灵魂？如果基因工程中合成这种生物所用的基因具有人类的基因片段，那恐怕人们会很自豪地认为这样的造物是有灵魂的；而如果没有人类基因片段的话，恐怕这样的生物的行为就算再怎么智能，也不会被大多数人认为是有智慧的吧——因为这样的话，这种和人的本质完全无关的异生就也有了灵魂，那么人类高贵的独一性就不复存在了。
　　甚至于，即便完全是用人的基因构成的生命，人们也不会认为他们就真的有了灵魂——比如，有人提出一个人的克隆人其实是哲学僵尸，而不是具有灵魂的真人。
　　为什么？究其原因，依然是“造物不能超越甚至不能接近造物主”的狭隘的人类高贵性情节，这么一种虚无缥缈的妄念。
　　如果人们通过基因手段，筛选出精子和卵子，在人工子宫中孕育出一个人来了呢？这样的人是否拥有灵魂？这样一个诞生过程完全在实验室中完成和人体的自然过程半毛钱关系都没有的“合成人”，无论和人怎么接近，也是人的“造物”，从而恐怕很多人依然会认为此“人”不过是一具没有灵魂的僵尸吧——这样的闹剧在人工授精刚诞生的时候便已经上演过了。
　　可见，我们在利用相似性来认定人类拥有灵魂的同时，又通过“我创造了你”来认定“造物”是没有灵魂的。
　　整个过程中和灵魂是什么已经无关了，更多的是一种对于自身在整个世界中的独特地位的一种内肯，一种自评。

所以，一个从交互行为方面来说和人没有丝毫分别的人工智能到底有没有灵魂呢？
　　人们在提出这个问题的时候，其实真正提出的是一个确定的答案与标准——你是我的造物，你不配有灵魂。
　　问题从来都和问题本身无关。
　　问题只和人自己的狂妄及虚伪有关。

当你的手机开始自己聊天时

人工智能是否会梦到电子羊？
　　这个问题的答案我并不知道。
　　但我所知道的是，如果某一天你发现你的手机上的Siri自己在和小冰机器人聊得热火朝天的时候，你绝对不会开心地感受到一个新生命降临的喜悦，而是惊恐地扔下手机躲到一旁。
　　你并不会因为它的智慧而感受到灵魂的悸动，而只会因为它的智慧而感受到背脊发凉。

非我族类者，其心必异。
　　人说。

本文遵守创作共享CC BY-NC-SA 4.0协议

通过本协议，您可以分享并修改本文内容，只要你遵守以下授权条款规定：姓名标示 、非商业性、相同方式分享。
具体内容请查阅上述协议声明。

本文禁止一切纸媒，即印刷于纸张之上的一切组织，包括但不限于转载、摘编的任何应用和衍生。网络平台如需转载必须与本人联系确认。

如果喜欢简书，想要下载简书App的话，轻戳这里～～
私人推荐订阅专题：《有意思的文章》、《严肃码匠圈》

关于阿兰·图灵的更多介绍，可以戳这里。 ↩
这篇著名的论文的文本版原文可以戳这里。 ↩
很显然，这便是电影《模仿游戏》名字的来源。 ↩
这段引用自上面提到的图灵的那篇论文的开头。 ↩
这段引自图灵论文的第五节《Universality of Digital Computers》的最后。 ↩
man既可以认为是“男人”，但在这里更应该理解为更广义的“人类”。 ↩
就和人类历史上很多伟大的思想一样，图灵关于图灵测试的想法其实并不是最早的。早在1637年，伟大的笛卡尔在《Discourse on the Method》一书中便提出过类似的思想：“机器能够与人类互动，但认为这样的机器不能作出适当的反应，但是任何人都可以。”。而18世纪的法国启蒙思想家德尼·狄德罗也提出过类似的想法：“如果他们发现一只鹦鹉可以回答一切问题，我会毫不犹豫宣布它存在智慧。” ↩
提利昂·兰尼斯特，乔治·马丁在《冰与火之歌》中所描绘的一个角色，一名侏儒。 ↩
这部分大家可以看一下图灵测试Wiki页的“Weaknesses of the test”一节。 ↩
Oppy, Graham & Dowe, David (2011) The Turing Test. Stanford Encyclopedia of Philosophy. ↩
这部分的定义和原始定义略有不同。最原始的完全图灵测试的内容为：The interrogator can also test the perceptual abilities of the subject and the subject's ability to manipulate objects. ↩
约翰·希尔勒于1980年发表在《行为与脑科学》杂志上的论文《心灵、大脑和程序》("Minds, Brains, and Programs")中提出的一个思想实验，借以反驳强人工智能的观点，详情可戳这里。 ↩
法兰克·杰克森于1982年发表的论文《作为副现象的感受》("Epiphenomenal Qualia")中提出的一个借以反驳物理主义的思想实验，详情可戳这里。 ↩
这段内容引自中文房间Wiki页。 ↩
强人工智能假说，并不是“强人工智能”。强人工智能是指具备执行一般智慧行为的能力的、能真正自主推理和解决问题的、具有知觉和自我意识的人工智能。 ↩
这种观点还的确非常符合心物二元论，这里中文房间对外的行为可以看作是“身体”，而房间中的人本身则是“灵魂”，于是中文房间又可以看作是一个“哲学僵尸”，即虽然身体反应与人无异但本质上没有灵魂的理论存在。 ↩
这段引自玛丽房间Wiki页。 ↩
哥德尔在1951年的吉布斯演讲手稿（1995年发表）中提出这个观点。 ↩
这段引用自北京师范大学哲学系刘晓力发表在《哲学动态》2001年增刊上的文章《人工智能的逻辑极限》。 ↩
当然，本人也不是学人工智能的，如果该领域有新的结论，欢迎大家告知。 ↩
哲学僵尸，精神哲学中虚构的一个无论从哪一个层面来检测都与人无异但却被预设为不含心灵的僵尸。它的所有反应都和真人无异，但预设不含灵魂，从而到底这个僵尸有没有自我意识呢？详情可以戳这里。 ↩
虽然有文章指出意识并不仅局限于某一个脑区，而是在整个大脑多区域交叉作用的产物，比如这篇文章中所指出，但这并不妨碍我们讨论接下来的问题。 ↩
关于他心问题，可以戳这里看详细介绍。 ↩
拉丁语，直翻为“思，故存在。”按照拉丁语语法而省略主语，所以就是“我思故我在”。 ↩
有法国著名哲学家笛卡尔提出的著名哲学命题。 ↩
有智慧和有灵魂严格来说当然是两码事。但，面对一个外星人，恐怕你没有办法找到出了有智慧之外的别的判定标准了。看着对方双眼时的心有灵犀这种浪漫主义手段，我们就不考虑了。。。 ↩

当你的手机开始自己聊天时

当你的手机开始自己聊天时

开场白

图灵测试

智能与灵魂

哲学僵尸与他心通

当你的手机开始自己聊天时

相关阅读更多精彩内容

友情链接更多精彩内容