登录注册写文章

线性回归

线性回归

引自：周志华老师的《机器学习》

线性模型

线性模型试图学习一个通过属性的线性组合来进行预测的函数。
设x有d个属性：

线性模型基本形式

1.线性回归

线性回归试图学习一个线性模型以尽可能的预测实值输出标记。

1.0 误差

如上所述：
预测值： $y=wx+b$
一元线性回归表达式： $Y=wx+b+c$ ，此处c为误差，b为截距项，Y是真实值，即预测值加上误差。

误差

为什么误差服从高斯分布？
因为实际情况下，误差都是随机围绕着0来的，大多数误差经过测量被证实是服从高斯分布的。说明高斯分布对误差假设来说是一种很好的模型。

1.1均方误差

如何确定w和b？ 关键在于如何衡量f(x)和y之间的差别。
均方误差是回归任务中常用的性能度量，我们试图让均方误差最小化。即：

线性回归均方误差

均方误差对应了欧氏距离，基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
在线性回归中，最小二乘法就是试图寻找一条直线，是所有的样本到直线上的欧氏距离最小。

1.2参数估计

求解w和b使得均方误差最小化的过程，称为线性回归模型的最小二乘“参数估计”。
我们将E(w,b)对w和b求导，得到：

求导

1.3 多元线性回归

如果数据集D的样本由d个属性，此时

多元线性回归

称为“多元线性回归”

数据集D表示为 $m *（d+1）$ 的矩阵 $X$ 。

X

标记y也写成向量形式：

多元线性回归

注意：在现实中往往不是满秩矩阵，这样的话可以解出多个，他们都可以是均方误差最小化，选择哪一个解作为最终结果，就需要有学习算法的归纳偏好决定，常见的做法是引入正则化项。

1.4 对数线性回归

假设示例的输出标记是在指数尺度上变化，那就可以将输出标记的对数作为线性模型逼近目标，即：
$ln(y) = w^Tx+b$
这就是对数线性回归，实际上是求 $e^{w^x+b}$ 逼近 $y$

对数线性回归示意图

1.5 广义线性函数

更一般地，考虑到单调可微函数 $g(*)$ ，令 $y=g^{-1}(w^Tx+b)$ ，这样得到的模型是广义线性模型， $g(*)$ 为“联系函数”。对数线性回归是广义线性回归模型 $g(*)=ln(*)$ 的特例。

最后编辑于：2019.05.11 17:22:37

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

1赞2赞

赞赏

手机看全文