关于卷积神经网络中卷积层的感想
这两天在 Udacity 的 machine learning 课程学习了卷积神经网络的基础概念和基本架构,在学习了卷积层的可视化和理解卷积层为什么有效的知识后......明显地感觉到了卷积神经网络存在的资本泡沫,即不像媒体吹的那么神乎其神。为什么呢?请看下图,
从上图中可以看出,第一个由卷积层组成的卷积block只记住了图像的边缘,第二个block记住了图像的形状,第三个block记住了更具体的人脸特征。像下图就属于第三个block的卷积层的可视化,
从可视化看出和对应的原图片没有什么差别,无非就是背景变成了灰度显示。也就是说如果开发出一种算法可以将要识别的训练集中属于同一 class 的具有类似空间特征的图片人工筛选出来(不用多,可能200张就够了),然后对图像矩阵取平均值,对背景进行灰度处理,就能作为卷积层,然后逆推filters (或者叫 kernel 函数, 权重)。或者让个画师观看了这些图片后,根据自己印象画个这个类的自己觉得的典型图像就可以作为卷积层来逆推filter?
或者现在学界还不会逆推,而逆推 filter 是解释卷积神经网络的关键?