没人知道为什么深度神经网络这么擅长解决复杂问题。现在物理学家说秘密藏在物理法则里。
过去几年中,深度学习技术改变了人工智能的世界。一个一个曾被认为是人所特有的那些能力和技巧,被越来越强大的机器所征服。现在,深度神经网络已经在人脸识别和物体识别方面超越了人类。他们甚至学会了古老的围棋,并且击溃人类棋手。
但是有个问题:没有数学理论能解释,为什么层叠的网络会擅长这些挑战。数学家对此完全困惑。尽管深度神经网络取得了巨大的成功,没有人能确定它们是怎么做到的。
今天哈佛大学的 Henry Lin 和 MIT 的 Max Tegmark 的工作改变了这个状况。这两位说,之所以数学家对这个问题这么尴尬,是因为问题的答案在于宇宙的特性。换句话说,答案源于物理规则,而不是数学规则。
首先,让我们设定问题:就拿从百万字位灰度图片区分猫和狗为例。
这样的图片包含一百万像素,每个像素可以从256个灰度里取值。理论上,一共存在256^1000000 张可能的图片,其中每一张都需要计算图片上到底是只猫还是只狗。可是神经网络,只用区区几千个到百万个参数,不知怎么着就能轻松完成这个任务。
用数学家的语言说,神经网络的机理是用简单的数学函数来近似复杂数学函数。当它在分类猫狗图片的时候,神经网络用一个函数,这个函数的输入是一百万个灰度像素,输出是它代表猫或者狗的概率分布。
问题是,这样的数学函数的数量,比可能的神经网络的数量,多出很多数量级。然而深度神经网络不知怎么着就是能得到正确答案。
现在 Lin和Tegmark 说他们找到了原因。答案是:宇宙是由所有可能的函数中,极小的一个子集来支配的。换句话说,所有的宇宙法则都可以用数学函数来表达,而这些函数只有一些很不寻常的简单属性。
所以深度神经网络不需要去近似所有可能的数学函数,而仅仅是一个很小的子集。
为了恰当理解这个问题,考虑一个多项式的阶数,也就是它的最高方次项的次数。比如一个二元方程 y=x2 的阶数是2,方程式 y=x24 的结束是24,以此类推。
很明显,阶数是无限的,而且自然定律中只出现了所有多项式中非常小的一个子集。Lin和Tegmark说:“因为某些不可知的原因,我们的宇宙可以用低阶多项汉密尔顿方程精确描述”。一般情况下,物理定律多项式的阶数载2到4之间。
物理定律还有其他一些重要性质。比如,在旋转和位移方面,它们通常是对称的。把一只猫和一条狗旋转360度,它们看起来和原来一样;把它们平移10米或者100米,它们看起来还是那样。这个性质也大大简化了猫狗识别过程的近似任务。
这些性质意味着,神经网络不需要去近似无穷多的所有可能的数学函数,而只需要由简单函数组成的很小的一个子集。
神经网络还利用宇宙的另一个属性:宇宙的层级结构。Lin和Tegmark说“基本粒子组成原子,原子组成分子,细胞,器官,行星,星系,银河系,等等”。复杂结构常常是经过一系列简单步骤形成的。
这也是为什么神经网络的结构非常重要:这些网络的分层,可以逼近因果关系中的步骤。
Lin 和Tegmark 举了宇宙中微波背景辐射的例子。微波背景辐射是宇宙大爆炸的回响,至今弥漫在宇宙中。近些年,不同的宇航设备用越来越高的分辨度记录了这些辐射。当然,物理学家很困惑这些记录下来的微波的形式的成因。
Tegmark 和 Lin 指出,无论原因是什么,毫无疑问它们是某种因果性层级关系的结果。他们说:“一些宇宙参数(暗物质的密度,等)决定了我们宇宙的密度波动的能量谱,能量谱又决定了从宇宙早期延伸至今的宇宙微波背景辐射的模式,微波背景辐射又和我们银河系的前景射频噪音一起,形成了频率依赖的天空图谱,被我们卫星载的望远镜记录下来。”
以上每一个因果层都包含了更多的数据。一开始只有一小撮宇宙参数,可是哪些图谱和其中的噪音包含了亿万数值。物理学的目标,就是分析大量的数值,揭露那一小撮参数。
而当一些自然现象呈现出层级结构时,神经网络使得分析这些现象显著地变容易。
Tegmark 和 Lin 得出结论:“我们表明了,深度而低成本的学习,不但依赖数学,更依赖物理学。物理偏爱某些类的异常简单的概率分布,而深度学习异常适合对于这些分布建模。”
这是有意思、重要、并有重大影响的工作。人工神经网络众所周知是基于生物神经网络发展出来的。所以,Lin 和 Tegmark的想法不但解释了为什么深度学习机器这么好用,也解释了为什么人脑能够理解宇宙。不知怎么着,大脑进化出了这么一个理想的结构,让它很适于破解宇宙的复杂。
这项工作为人工智能取得更显著进展打开了局面。既然我们终于理解了为什么深度神经网络这么好用,数学家就可以去探索那些让他们性能这么好的数学性质。Lin 和 Tegmark 说:“加强对深度学习的分析理解,可能带来改进深度学习的方式”。
深度学习今年里取得了长足的进步。有了这个改进的理解,进步的速度注定会加速。