人工智能是未来。人工智能是科幻。人工智能已经深入我们的日常生活。这些话都没错,当然这要看你指的是哪种程度的人工智能。
举个例子,今年早些时候 Google DeepMind 的 AlphaGo 项目在举世瞩目的围棋比赛中一举击败了韩国选手李世石,媒体就是使用了人工智能、机器学习和深度学习这几个术语,来解释 DeepMind 获胜的原因。但是三者其实不是一回事。
搞清三者关系的最简单方法,就是把它们想象成一个同心圆,其中人工智能最大,此概念也最先问世;然后是机器学习,出现的稍晚;最后才是深度学习,不过却是如今人工智能爆炸式发展的根源,处于前两者的范围之内。
从低潮到繁荣
自从 1956 年计算机科学家们在达特茅斯会议(Dartmouth Conferences)上确认人工智能这个术语以来,人们就不乏关于人工智能奇思妙想,研究人员也在不遗余力地研究。在此后的几十年间,人工智能先是被捧为人类文明光明未来的钥匙,后又被当作过于自大的异想天开而抛弃。老实说,在 2012 年之前,人工智能确实处于二者之间。
但是在过去几年中,人工智能出现了爆炸式的发展,尤其是 2015 年之后。大部分原因,要归功于图形处理器(GPU)的广泛应用,使得并行处理更快、更便宜、更强大。另外,人工智能的发展还得益于几乎无限的存储空间和海量数据的出现(大数据运动):图像、文本、交易数据、地图数据,应有尽有。
下面我们来回顾一下计算机科学家如何让直到 2012 年还处在低潮的人工智能,迎来了数亿人每天都在使用的大繁荣。
人工智能:机器展现的人类智能
人工智能先驱们在达特茅斯开会时,心中的梦想是希望通过当时新兴的计算机,打造拥有相当于人类智能的复杂机器。这就是我们所说的“通用人工智能”(General AI)概念,拥有人类五感(甚至更多)、推理能力以及人类思维方式的神奇机器。在电影中我们已经看过无数这样的机器人,对人类友好的 C-3PO,以及人类的敌人终结者。通用人工智能机器至今只存在 于电影和科幻小说里,理由很简单:我们还实现不了,至少目前为止。
我们力所能及的,算是“弱人工智能”(Narrow AI):执行特定任务的水平与人类相当,甚至超越人类的技术。现实中有很多弱人工智能的例子。这些技术有人类智能的一面。但是它们是如何做到的?智能来自哪里?这就涉及到下一个同心圆:机器学习。
机器学习:实现人工智能的一种方法
简单来说,机器学习就是使用算法分析数据,从中学习并做出推断或预测。因此与传统的使用特定指令集手写软件例程,实现特定任务的做法不同,我们使用大量数据和算法来“训练”机器,由此来学习如何完成任务。
机器学习的概念来自早期的人工智能研究者,已经研究出的算法包括决策树学习、归纳逻辑编程、增强学习和贝叶斯网络等。众所周知,上述任何一个算法都没有实现通用人工智能的最终目标,而且靠这些早期的机器学习方式甚至都没有实现弱人工智能。
许多年来,计算机视觉一直是机器学习最佳的领用领域之一,尽管还需要大量的手动编码才能完成任务。研究者会手动编写一些分类器(classifier),如边缘检测筛选器,帮助程序辨别物体的边界;图形检测分类器,判断物体是否有八个面;以及识别“S-T-O-P”的分类器。在这些手动编写的分类器的基础上,他们再开发用于理解图像的算法,并学习如何判断是否有停止标志。
到了这一步已经不错,但还不算惊艳。尤其是在雾天的时候,标志也不是特别清晰,或者会有树遮挡。计算机视觉和图像检测直到最近才达到人类水平也是有原因的:经不住考验,而且容易出错。
不过,时间和正确的学习算法改变了这一切。
深度学习:实现机器学习的一种技术
早期机器学习研究者中还开发了一种叫人工神经网络的算法,但是发明之后数十年都默默无闻。神经网络是受人类大脑的启发而来的:神经元之间的相互连接关系。但是,人类大脑中的神经元可以与特定范围内的任意神经元连接,而人工神经网络中数据传播要经历不同的层,传播方向也不同。
举个例子,你可以将一张图片切分为小块,然后输入到神经网络的第一层中。在第一层中做初步计算,然后神经元将数据传至第二层。由第二层神经元执行任务,依次类推,直到最后一层,然后输出最终的结果。
每个神经元都会给其输入指定一个权重:相对于执行的任务该神经元的正确和错误程度。最终的输出由这些权重共同决定。因此,我们再来看看上面提到的停止标志示例。一张停止标志图像的属性,被一一细分,然后被神经元“检查”:形状、颜色、字符、标志大小和是否运动。神经网络的任务是判断这是否是一个停止标志。它将给出一个“概率向量”(probability vector),这其实是基于权重做出的猜测结果。在本文的示例中,系统可能会有 86% 的把握认定图像是一个停止标志,7% 的把握认为是一个限速标志,等等。网络架构然后会告知神经网络其判断是否正确。
不过这个示例也有点超前了,因为之前大部分时间人工智能研究者们都对神经网络避之不及。神经网络的概念出现的很早,但是没有产出一点像样的“智能”。问题在于即使是最基础的神经网络也要耗费巨大的计算资源,因此当时不算是一个可行的方法。不过,以多伦多大学 Geoffrey Hinton 教授为首的一小批狂热研究者们坚持采用这种方法,最终让超级计算机能够并行执行该算法,并证明该算法的作用。当然这也是采用了 GPU 之后才实现的。
如果我们回到停止标志那个例子,很有可能神经网络受训练的影响,会经常给出错误的答案。这说明还需要不断的训练。它需要成千上万张图片,甚至数百万张图片来训练,直到神经元输入的权重调整到非常精确,几乎每次都能够给出正确答案(不管是否为雾天或雨天)。只有在这时,神经网络才算学会了什么是停止标志。Facebook 利用神经网络记住了你母亲的面孔;吴恩达 2012 年在谷歌实现了可以识别猫的神经网络。
吴恩达的创新是扩大神经网络的规模,增加网络的层数和神经元数量,然后通过系统运行大量的数据进行训练。吴恩达使用的是 1 千万个 YouTube 视频中的图像。吴恩达真正做到了深度学习中的“深度”。
如今,在某些情况下,通过深度学习训练过的机器在图像识别上表现优于人类,这包括找猫、识别血液中的癌症迹象等。谷歌的 AlphaGo 学会了围棋,并为比赛进行了大量的训练:不断的和自己比赛。
深度学习赋予了人工智能美好的未来
深度学习使得机器学习乃至人工智能整个领域出现了众多实际应用。深度学习的出现,使得任何机器协助看上去都成为可能。无人驾驶汽车,更好的预防性医疗,甚至更棒的电影推荐,都已经实现或即将实现。人工智能已经成为现实,也是我们的未来。在深度学习的帮助下,人工智能甚至可能达到我们一直有以来幻想的科幻状态。我猜,未来你会有自己的 C-3PO,甚至包括终结者。