AlexNet 的方法是在最基本的像素到最终识别的物体之间加入了几个逻辑层 —— 也就是“卷积层”。“卷积”是一种数学操作,可以理解成“过滤”,或者叫“滤波”,意思是从细致的信号中识别尺度更大一点的结构。每一个卷积层识别一种特定规模的图形模式,然后后面一层只要在前面一层的基础上进行识别,这就解决了“看什么”和“往哪看”的问题。
分层的好处:第一,卷积层中的神经元只要处理一个小区域的数据,而且参数可以重复使用,这就大大减少了运算量。第二,因为可以一个区域一个区域地搜索,就可以发现小尺度的物体。
深度学习完全是基于经验的判断,它没有任何逻辑推理能力。