线性模型

基本形式:

  一般形式:f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b
  向量形式:f(x)=w^{T} x+b

线性回归:

最小二乘法:

  最小二乘法就是试图找到一条直线,使所有样本到直线的欧式距离只和最小,求解wb使

        E_{(w,b)}=\sum_{i=1}^{n}(y_{i}-wx_{i}-b)^2

最小化过程,称为线性回归模型的最小二乘"参数估计"。将E_{(w,b)}分别对wb求导

  \frac{ \partial E_{(w,b)} }{ \partial w } = 2(w\sum_{i=1}^{m}x_{i}^2-\sum_{i=1}^{m}(y_{i}-b)x_{i})

  \frac{ \partial E_{(w,b)}}{ \partial b } = 2(mb-\sum_{i=1}^{m}(y_{i}-wx_{i}))

分别令其为零可得到wb最优解的闭试解,其中\bar{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i}x的均值。

  w=\frac{ \sum_{i=1}^{m}y_{i}(x_{i}-\bar{x}) }{ \sum_{i=1}^{m}x_{i}^{2}-\frac{ 1 }{ m }(\sum_{i=1}^{m}x_{i})^{2} }

  b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})

(PS:多元线性回归暂略,以后补上)

对数线性回归:

  首先线性模型y=w^{T}x+b逼近的是y,亦可以使起逼近y的衍生物。
将输出标记的对数作为线性模型逼近目标,即
        ln y=w^{T}x+b
这就是“对数线性回归”(其实己经不再是线性的了)。

对数几率回归:

  于二分类问题中,输出y\in\{0,1\},而线性回归模型产生的预测值z=w^{T}x+b是实值,我们需要将z转化为 0 或 1 的值,也就是说若w^{T}x_{i}+b>zz=1x_{i}将被划分到\{z=1\}一类中,反之亦然。
我们需要函数
      y=\begin{cases}0, &z<0 \cr 1, &z>0\end{cases}
最理想的是“单位跃界函数”。
      y=\begin{cases}0, &z<0 \cr 0.5, &z=0 \cr 1, &z>0\end{cases}
即若预测值大于零就判为正例,小于零就判为反例,临界值零则可任意判别。
由于单位跃界不连续,而我们需要它单调可微。对数几率函数作为替代函数:

      y=\frac{ 1 }{ 1+e^{-z} }=\frac{ 1 }{ 1+e^{-(w^{T}x+b)} }
    \Rightarrow ln \frac{ y }{ 1-y } = w^{T}x+b
若将y视为样本x作为正例的可能性,则1-y是反例的可能性,两者比值\frac{ y }{ 1-y }称为“几率”,反映了正例的相对可能性,对几率取对数则得到了“对数几率”,对应的模型称为“对数几率回归模型”(PS:是一种分类学习方法)
  接下来的问题就是如何确定wb。将y视为后验概率估计p(y=1|x)
      ln \frac{ p(y=1|x) }{ p(y=0|x) } = w^{T}x+b

      p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}
      p(y=0|x)=\frac{1}{1+e^{w^{T}x+b}}

通过“极大似然法”来估计wb使每个样本\{ (x_{i},y_{i}) \}_{i=1}^{m}属于其真实标记的概率越大越好。对概率回归模型最大化“对数似然”
      L(w,b)=\prod_{i=1}^{m}p(y_{i}|x_{i};w,b)

    \Rightarrow l(w,b)=\sum_{i=1}^{m}ln \;p(y_{i}|x_{i};w,b)

其中p(y_{i}|x_{i};w,b) = y_{i}p_{1}(y=1|x;w,b)+(1-y_{i})p_{0}(y=0|x;w,b)
代入对数似然中
    l(w,b)=\sum_{i=1}^{m}ln\frac{ y_{i}e^{w^{T}x+b}+1-y_{i} }{ 1+e^{w^{T}x+b} } = -\sum_{i=1}^{m}(ln(1+e^{w^{T}x+b})-ln(y_{i}e^{w^{T}x+b}+1-y_{i}))

ln(y_{i}e^{w^{T}x+b}+1-y_{i})y_{i}取值为\{ 0,1 \},故等价于y_{i}(w^{T}x+b)

l(w,b)=-\sum_{i=1}^{m}(ln(1+e^{w^{T}x+b})-y_{i}(w^{T}x+b))
即最小化\sum_{i=1}^{m}(ln(1+e^{w^{T}x+b})-y_{i}(w^{T}x+b))

可用梯度下降法、牛顿法等可求的最优解。

线性判别分析(LDA):

LDA思想:

  线性判别分析(Linear Discriminant Analysis,LDA)是一种经典的线性学习方法,在二分类问题上因为最早由Fisher提出,亦称“ Fisher判别分析”。
  给定训练集,设法将样例投影到一条直线上,使得同样样例的投影点尽可能近、异类样例的投影点尽可能远;在对新样本进行分类的时候,将其投影到同样的这条直线上,再根据投影点位置来确定新样本的类别。

LDA算法:

数据集:D=\{(x_{i},y_{i})\}^{m}_{i=1}y_{i}=\{0,1\}
X_{i}\mu_{i}\Sigma_{i}分别表示第i\in\{0,1\}类示例的集合、均值向量、协方差矩阵。
  \mu_{i}=\frac{1}{N_{i}}\sum_{x\in X_{i}}x
  \Sigma_{i}=\sum_{x\in X_{i}}(x-\mu_{i})(x-\mu_{i})^{T}
由于是两类数据,因此我们只需要将数据投影到一条直线上即可。假设投影直线向量w,则对任意的一个样本x_{i},它在直线w的投影为w^{T}x_{i},对于我们的两个类别的中心点\mu_{0}\mu_{1},在直线w的投影为w^{T}\mu_{0}w^{T}\mu_{1}。由于LDA需要让不同类别的数据类别中心之间的距离尽可能的大,也就是我们需要最大化\| w^{T}\mu_{0}-w^{T}\mu_{1} \|^{2},同时我们希望同一种类别数据的投影点尽可能的接近,也就是同样的样本投影点的协方差w^{T}\Sigma_{0}ww^{T}\Sigma_{1}w尽可能的小,即最小化w^{T}\Sigma_{0}w+w^{T}\Sigma_{1}w
综上所诉,我们的优化目标为:
  arg max J(w)=\frac{\| w^{T}\mu_{0}-w^{T}\mu_{1} \|^{2}}{w^{T}\Sigma_{0}w+w^{T}\Sigma_{1}w}=\frac{w^{T}(\mu_{0}-\mu_{1})(\mu_{0}-\mu{1})^{T}w}{w^{T}(\Sigma_{0}+\Sigma_{1})w}
定义类内散度矩阵S_{w}为:
  S_{w}=\Sigma_{0}+\Sigma_{1}=\sum_{x\in X_{0}}(x-\mu_{1})(x-\mu_{1})^{T}+\sum_{x\in X_{1}}(x-\mu_{1})(x-\mu_{1})^{T}
定义类间散度矩阵S_{b}为:
  S_{b}=(\mu_{0}-\mu_{1})(\mu_{0}-\mu{1})^{T}
优化目标重写为:
  arg max J(w)=\frac{w^{T}S_{b}w}{w^{T}S_{w}w}
通过广义瑞利熵,得知J(w)最大值为矩阵S_{w}^{-\frac{1}{2}}S_{b}S_{w}^{-\frac{1}{2}}的最大特征值,而S_{w}^{-1}S_{b}的特征值和S_{w}^{-\frac{1}{2}}S_{b}S_{w}^{-\frac{1}{2}}的特征值相同,S_{w}^{-1}S_{b}的特征向量w^{'}S_{w}^{-\frac{1}{2}}S_{b}S_{w}^{-\frac{1}{2}}的特征向量w满足:
  w^{'}=S_{w}^{-\frac{1}{2}}w
对于二分类问题,S_{b}w的方向恒为\mu_{0}-\mu_{1},令S_{b}w=\lambda(\mu_{0}-\mu_{1}),将其带入(S_{w}^{-1}S_{b})w=\lambda w,可以得出w=S_{w}^{-1}(\mu_{0}-\mu_{1}),也就是说我们只要求出原始二分类样本的均值和方差就可以确定最佳的投影方向w了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容