机器学习里一个比较典型的问题是模式识别,也可以理解为对数据的自动分类。
一些术语
- 训练和学习过程
- 测试和泛化过程
- 特征抽取
数据预处理(旋转,放缩等等)
用较低的空间编码表示输入和测试数据 - 监督学习
分类(离散)或者回归(连续) - 无监督学习
聚类,密度估计 - 强化学习
从一个多项式曲线拟合的例子说起,损失函数是预测函数值和真实标签值的平方误差
多项式的阶数太低的话欠拟合,太高的话会过拟合,可以画一个不同阶数的训练和测试误差图走势来观察什么阶数比较合适
如果阶数固定,同时增加数据点的个数可以缓解过拟合
事实上,最大似然估计很容易过拟合(MLE),这时候就可以考虑加入贝叶斯模型的思想,从某种意义上来说,贝叶斯模型的加入也是一种正则化手段
在正则化参数平方项前面的正则化参数可以有效地控制模型的复杂度
贝叶斯和频率流派的不同做法
他们都用到了likelihood,但是likelihood扮演的角色不同。
在频率流派里,w是被最大似然估计出来的,error bar是被所有可能的数据分布估计出来的(也就是不同bootstrap数据集中的预测方差)
bootstrap是从初始样本重复随机替换抽样,生成一系列待检验的统计量的经验分布(通常用于
- 均值的样本分布为正态分布
- 有严重的离群点或者样本容量不够大的
数据集中)
在贝叶斯方法中,只有一个数据集D,w是和先验和后验概率联系在一起的
1.给出的是一个分布
2.高斯核
3.local support 点估计
高斯分布
我们知道对高斯分布求最大log似然函数,然后求导,得到均值和方差的估计值,均值是无偏估计,而方差是偏小的(N-1)/N