过去与现在
让我从一些具体的事物开始讲起。实际上,我想请大家把我字体放大一些。但实际上,我并没有实质性的内容要展示给大家。这并不是技术故障。这其实是我们的世界,就在 540 百万年前。
那时,一片纯粹、无尽的黑暗。这种黑暗并不是因为缺少光线,而是因为缺乏视觉。确实,阳光可以穿透海洋,达到海底一千米的深度,从热液喷口散发出来的光也能照亮海底。尽管生命在这里蓬勃发展,但却没有一只眼睛能够看见。那时的海洋就像外星一样,没有视网膜,没有角膜,没有晶状体。所以,所有的光,所有的生命,都在黑暗中过着无人知晓的生活。
直到三叶虫的出现,它们是第一种能够感知光线的生物。也是我们今天所熟知的现实世界的第一批居民。首次发现的是一个世界,存在着超越自我的东西,那就是许多其他的“自我”存在。看见的能力或许开始帮助引入了一个被称为“寒武纪大爆炸”的时期,这个时期有很多动物种类进入了化石记录。
一开始只是简单地让光线进来,这样的体验是被动的,但很快就丰富起来,变得积极主动。然后,神经系统开始演化。我们从看见的视觉,得到了洞察的能力。“看见”变成了“理解”,理解引领我们行动,而所有这些都促成了智能的产生。
现代 AI 的进步
所以,半个亿年后,我们对于自然赋予的智能已经不再满足。人类现在正在探求如何创造出能够像我们一样,甚至更好地看世界的机器。九年前,我在 TED 上做了一个演讲,我当时分享了计算机视觉的早期进展,这是人工智能的一个子领域。
大约十年前,有三大强大力量首次出现,一种被称为神经网络的算法家族。还有一种专用而快速的硬件,叫做图形处理单元,或者 GPU,稍后你们会听到 Jensen 的演讲。还有大数据,比如我实验室花了几年时间策展的那个包含 5000 万张照片的数据集,我们称它为 ImageNet。
当这些元素结合在一起,计算机的视觉能力不仅比以往更强,也开启了现代 AI 的新世纪。自那以后,我们走过了很长的道路。那是十年前,只标注物体就成了一种突破,就像初现曙光的三叶虫看到的第一缕光。但神经网络算法的速度和准确度很快就提高了。年复一年,我们实验室举办的 ImageNet 年度挑战赛,都在评估这些算法的性能,每次提交的结果都刷新了记录。如你所见,这张图展示了每年的进步和一些里程碑模型,实在是让人惊叹。
但我们并不止步于此。我们以及其他实验室进一步研发出了可以切分对象,甚至识别视频中它们动态关系的模型,就像你在这里看到的。当然,还有更多新的发展在等着我们。