概率问题有两大学派,一个是频率派,另一个是贝叶斯派。
频率派的是统计机器学习方法,本质是优化问题,流程可以简化为1.设计模型 2.定义loss function 3.使用算法求解优化问题(例如梯度下降法)。
而贝叶斯学派的机器学习,本质是积分问题(可用Monte Carlo Method求解),概率图模型。
线性回归
首先来讲频率派统计机器学习方法的基础,线性回归。
假设数据集 , 是列向量,维度为p, 定义
首先从大家耳熟能详的最小二乘法出发,定义损失函数MSE
求解
这里可能会有求逆不存在的问题,这个我们稍后再讨论。另外可以用梯度下降法求解这个最优化问题,这边先不涉及。
现在我们换一个角度看问题,从概率的角度看,假设 ,
所以
极大似然估计MLE:
第一项是定值, 所以
可以发现最小二乘法等价于噪音为高斯分布的极大似然估计。
实际使用时候,如果样本容量没有远远大于样本的特征维度,很可能造成过拟合,另外我们之前留了个坑,就是求逆不一定存在。
针对过拟合,有几种选择的方式,
(1)增加数据,数据量越多肯定可以学到更好的模型,但有时候这个并不容易实现
(2)降维,把特征维度降下来,例如特征选择或者特征提取, 这一部分内容以后再涉及
(3)加入正则化。这是我们目前主要要讨论的内容
正则化,就是给模型的参数加入惩罚,一定程度可以起到降低模型复杂度的作用。这个时候,损失函数变成了
正则化常用的是
L1:
L2:
我们拿L2为例,损失函数可以写成
由于是一个半正定矩阵, 是对角矩阵, 可以发现括号内的矩阵一定可逆了。
同理,我们从概率的角度来看这个问题, 同样假设,
这时候,我们再给w一个先验,
所以 ,
由贝叶斯公式,可以推出
现在我们的目标是最大后验概率MAP,
可以发现第一项就是 loss function, 第二项 就是 , 也就是正则化系数。
所以我们又可以得出结论, 加入正则化的最小二乘法,等价于噪音为高斯,先验概率也是高斯的最大后验估计。
最后做一个总结,
最小二乘法等价于噪音为高斯分布的极大似然估计。
加入正则化的最小二乘法,等价于噪音为高斯,先验概率也是高斯的最大后验估计。
下一节开始,会开始涉及分类问题, 会发现最基本的线性回归模型其实是很多模型的基础。
转发请注明,谢谢。