机器学习——西瓜书(03)

1 基本形式

f(x)=w_{1} x_{1} +w_{2}x_{2}  +...+w_{d} x_{d} +b

其几何形式为:

f(x)=w^Tx+b

线性模型可以通过引入层级结构或高维映射扩展成更为强大的非线性模型。

ω 直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性 (comprehensibility)

2 线性回归

2.1 属性值转化

对离散属性,若属性值间存在"序" (order)关系,可通过连续化将其转化为连续值。如“高”“矮”可转化为{0,1},如“大”“中”“小”可转化为{0,0.5,1}。若属性值之间不存在序关系,只是类别。那么k个属性值的属性即可转化为k维向量。如瓜类{西瓜,冬瓜,南瓜}对应{(1,0,0),(0,1,0),(0,0,1)}。

2.2 估计参数

根据均方误差最小化——最小二乘法求解ω和b。

(1)一元线性方程

f(x)=wx_{i} +b

来源:周志华《机器学习》p54

由于上式是关于ω和b的凸函数,分别对ω和b求导,使两个导数均为0时,得到ω和b的最优解。

来源:周志华《机器学习》p54

从而得到:

来源:周志华《机器学习》p54
来源:周志华《机器学习》p55

其中,\bar{x} =\frac{1}{m} \sum_{i=1}^mx_{i} 为x的均值

(2)多元线性方程

f(x_{i} )=w^Tx_{i} +b

把ω和b用向量形式表示:

\hat{w} =(w;b)

给定数据集D={(x_{1} ,y_{1} ),(x_{2} ,y_{2} ),...,(x_{m} ,y_{m} )},其中x_{i} =(x_{i1} ;x_{i2} ;...;x_{id} ),y_{i} \epsilon R

来源:周志华《机器学习》p55

最优化条件表现为:

\hat{w} 求导

X^TX为满秩矩阵或正定矩阵时

\hat{w} ^*=(X^TX) ^{-1}X^Ty

\hat{x} _{i} =(x_{i} ,1),最终取得的多元线性回归模型如下:

f(\hat{x} _{i} )=\hat{x} ^T_{i}(X^TX )^{-1}X^Ty

但是,现实中X^TX往往不是满秩矩阵。一个具体的例子是我们可能遇到大量的变量,其数目超过样例数。此时就可以解出多个\hat{w} ,它们都能使均方误差最小化,此时就要引入第一章里提到的归纳偏好,在这里的常见做法是正则化(regularization)。

同时线性模型也是可扩展的,比如对y取对数,或者更一般地,考虑单调可微函数g(.),令

3  对数几率回归

对数几率回归也就是Logistic Regression。往往是为了解决二分类问题。在线性回归的基础上,如何让输出结果变成分类,直观的想法是在f(x)的基础上再外套一个函数g(z)。将实值转化为(0,1)值的最理想函数是“单位越阶函数”。

单位阶跃函数不连续,因此不能直接用作式 (3.15) 中的 g-(-),于是需要找到一个近似的替代函数,要求这个函数具有单调可微性。对数几率函数正好满足这个条件:

y=\frac{b}{1+e^{-z} }

4 线性判别分析

线性判别分析也就是LDA,其思想也非常易于理解:给定训练样例集,设法将样例投影到一条直线上 ,使得同类样例的投影点尽可能接近、 异类样例 的投影点尽可能远离;在对新样本进行分类时,将其投影到 同样的这条直线上,再根据投影点的位置来确定新样本的类别。

周志华《机器学习》p60
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容