2022.10.30 Sunday @BJ
在我的云南老家,有一些匠人,具有高超的铜器制作技艺,比如可以用一块铜板打造香炉。中学时上学要路过镇上最有名的铜匠铺,所以对铜匠技艺有很深的记忆。印象中,匠人主要就是把铜加热后再用几个锤子敲来敲去,经过反复锻造,就可以造出精美的器物。
这几年我对逼近论有一些兴趣,回想起来老家的铜匠技艺,转化为数学问题,说的是用锤子可以将一个圆盘变成任意想要的形状。当然,这里转变的形状应该视为微分同胚。
锤子的敲击,可以看做是一个固定映射 (如果用两种锤子,就考虑两个固定映射 ,以此类推),确定敲击的位置可以视为一个线性映射 。反复敲击,对应的是函数的复合。比如 对应的是把铜片换个位置敲一下。经过这样的对比,铜匠在做的事情,和人工神经网络在做的事情是一样的。不同的是,神经网络里面的线性映射可能要改变空间的维数,也就是说 不一定是方阵。而铜匠只能在原有空间中操作,需要 是方阵。
对深度学习有所了解的人应该都知道,神经网络具有万能逼近性,只要网络的宽度可以足够大(相当于把铜器放到高维空间中去锻造),那么它可以任意逼近连续函数。如果限制网络的宽度,那可能就没有万能逼近性了。实际上,如果逼近对象是 元连续函数,那么至少要求网络宽度是 ,宽度小于 的话是不可能有万能逼近性的。
那问题来了,宽度始终为 的神经网络(深度不限),可以逼近 元连续函数吗?
已有研究表明:如果激活函数 是连续单调函数,要求的逼近是在最大模意义下,那么答案是否定的。所以我们需要放松一下条件,考虑 范数意义下的逼近,其中 。或者考虑在最大模意义下逼近微分同胚。由于维数大于 时,微分同胚对连续函数有 逼近性,所以考虑后者会更好一些。
问题变为:宽度刚好为 的神经网络(深度不限),可以逼近 的微分同胚吗?
如果让高级的铜匠来回答这个问题,他应该会一脸淡然地说,可以。经过深入讨论,我们发现答案确实是肯定的。我们可以证明下面的定理:
这里采用深度学习中比较有名的 leaky-ReLU 激活函数为例。如果定理中的微分同胚还是保持定向的,而且维数 ,那么我们还可以要求神经网络 的各个 layer 也是保持定向的微分同胚。
如果将上述结论翻译给铜匠朋友们,那就是本文的标题。只需要一种特殊的锤子,就可以将一块铜板打造成任意其微分同胚形状的铜器。
需要说明的是,这里有一点点偷换概念,铜匠考虑的线性映射是旋转+平移,而我们考虑的是一般的线性映射。不过,铜匠技艺给我们的启示已经很有价值了,不是吗。