CNN、RNN、MLP、Attention对比

1、归纳偏置 (Inductive Bias)

当学习器去预测其未遇到过的輸入结果时,所做的一些假设的集合,让算法优先某种解决方案,这种偏好独立于观测的数据。

归纳 (Induction) 是自然科学中常用的两大方法之一 (归纳与演绎,Induction & Deduction),指从一些例子中寻找共性、泛化,形成一个较通用的规则的过程。

偏置 (Bias) 则是指对模型的偏好。

通俗理解:从现实生活中观察到的现象中归纳出一定的规则 (heuristic s),然后对模型做一定的约束,从而可以起到 “模型选择” 的作用,类似贝叶斯学习中的 “先验”。

广义解释:归纳偏置会促使学习算法优先考虑具有某些属性的解。

例如:

“奥卡姆剃刀” 原理:希望相同性能下,学习到的模型复杂度更低

KNN 中假设特征空间中相邻的样本倾向于属于同一类

SVM 中假设好的分类器应该最大化类别边界距离

2、卷积神经网络CNN

CNN的归纳偏置是:

(a)局部感受野 (Locality):空间位置上的元素 (Grid Elements) 的联系/相关性近大远小。对应小尺寸卷积核。

(b)旋转不变性 (rotation Invariance) :目标旋转与否不影响最终的分类识别。对应卷积核的对称性。

(c)平移不变性 (Translation Invariance):目标平移与否不影响最终的分类识别。对应权重滑动共享。

代表网络为ResNet。

3、循环神经网络RNN

RNN 的归纳偏置:

(a)序列性 (Sequentiality):强调序列上下文顺序关系。

(b)时间不变性 (Time Invariance):序列各时间步 (Timesteps)之间存在上下文关联。

(c)时间变换的不变性:RNN不同timestep之间权重共享。

代表网络为LSTM。

4、图网络

归纳偏置:中心节点与邻居节点的相似性会更好引导信息的聚合和传播。

代表网络为GCN。

与CNN和RNN的对比

(a)RNN处理序列数据,CNN处理欧式结构图像数据,GCN可以处理非结构话的图数据,普适性强。

(b)参数层面,RNN是不同时间步之间共享,CNN是卷积核参数,GCN主要是计算中心节点和邻域节点之间的权重。

(c)计算限制,RNN要求按时序先后顺序计算,CNN要求坐标邻域计算,GCN脱离时序和空间约束,通常采样与中心节点距离最近的N各节点(距离的计算方式可灵活选择)。

5、多层感知机

归纳偏置:全局感受野,但是权重参数是固定的。

代表网络为MLP-Mixer。

6、Attention机制

归纳偏置:全局感受野,权重参数由上下文动态attend计算。

代表网络为Bert。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容