归纳偏置Inductive Bias

Inductive Bias:在机器学习中,很多学习算法经常会对学习的问题做一些关于目标函数的必要假设,称为 归纳偏置 (Inductive Bias)。自然科学中常用的两大方法:归纳(Induction)与演绎Deduction), 归纳:从一些例子中寻找共性、泛化,形成一个较通用的规则的过程。偏置 (Bias) 则是指对模型的偏好。

归纳偏置可以理解为,从现实生活中观察到的现象中归纳出一定的规则 (heuristics),然后对模型做一定的约束,从而可以起到 “模型选择” 的作用,类似贝叶斯学习中的 “先验”。

例如,深度神经网络 就偏好性地认为,层次化处理信息有更好效果;卷积神经网络 认为信息具有空间局部性 (Locality),可用滑动卷积共享权重的方式降低参数空间;循环神经网络 则将时序信息考虑进来,强调顺序重要性;图网络 则认为中心节点与邻居节点的相似性会更好引导信息流动。

例子:

奥卡姆剃刀原理:希望相同性能下,学习到的模型复杂度更低

KNN:中假设特征空间中相邻的样本倾向于属于同一类

SVM:中假设好的分类器应该最大化类别边界距离


CNN 的 Inductive Bias 是 局部性 (Locality) 和 空间不变性 (Spatial Invariance) / 平移等效性 (Translation Equivariance),即空间位置上的元素 (Grid Elements) 的联系/相关性近大远小,以及空间 平移的不变性 (Kernel 权重共享)。

RNN 的 Inductive Bias 是 序列性 (Sequentiality) 和 时间不变性 (Time Invariance),即序列顺序上的时间步 (Timesteps) 有联系,以及时间变换的不变性 (RNN 权重共享)。

注意力机制,也是基于从人的直觉、生活经验归纳得到的规则。

意义:

归纳偏置的意义或作用是使得学习器具有了泛化的能力。


对于上图中的 6 个离散实心点,可由很多不同的曲线拟合之。但训练的模型必然存在一定的 “偏好” 或者说 “倾向”,才能学习出模型自己认为正确的拟合规则。显然,加了一定正则的偏置的实线 A 比虚线 B 更为简单而通用 (模型复杂度受到惩罚而更低,恰当拟合数据点,泛化性能更好)。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容