线性模型

基本形式：

一般形式： $f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b$
向量形式： $f(x)=w^{T} x+b$

线性回归：

最小二乘法:

最小二乘法就是试图找到一条直线，使所有样本到直线的欧式距离只和最小，求解 $w$ 和 $b$ 使

$E_{(w,b)}=\sum_{i=1}^{n}(y_{i}-wx_{i}-b)^2$

最小化过程，称为线性回归模型的最小二乘"参数估计"。将 $E_{(w,b)}$ 分别对 $w$ 和 $b$ 求导

$\frac{ \partial E_{(w,b)} }{ \partial w } = 2(w\sum_{i=1}^{m}x_{i}^2-\sum_{i=1}^{m}(y_{i}-b)x_{i})$

$\frac{ \partial E_{(w,b)}}{ \partial b } = 2(mb-\sum_{i=1}^{m}(y_{i}-wx_{i}))$

分别令其为零可得到 $w$ 和 $b$ 最优解的闭试解，其中 $\bar{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i}$ 为 $x$ 的均值。

$w=\frac{ \sum_{i=1}^{m}y_{i}(x_{i}-\bar{x}) }{ \sum_{i=1}^{m}x_{i}^{2}-\frac{ 1 }{ m }(\sum_{i=1}^{m}x_{i})^{2} }$

$b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})$

（PS：多元线性回归暂略，以后补上）

对数线性回归：

首先线性模型 $y=w^{T}x+b$ 逼近的是 $y$ ，亦可以使起逼近 $y$ 的衍生物。
将输出标记的对数作为线性模型逼近目标，即
$ln y=w^{T}x+b$
这就是“对数线性回归”（其实己经不再是线性的了）。

对数几率回归：

于二分类问题中，输出 $y\in\{0,1\}$ ，而线性回归模型产生的预测值 $z=w^{T}x+b$ 是实值，我们需要将 $z$ 转化为 0 或 1 的值，也就是说若 $w^{T}x_{i}+b>z$ 则 $z=1$ ， $x_{i}$ 将被划分到 $\{z=1\}$ 一类中，反之亦然。
我们需要函数
$y=\begin{cases}0, &z<0 \cr 1, &z>0\end{cases}$
最理想的是“单位跃界函数”。
$y=\begin{cases}0, &z<0 \cr 0.5, &z=0 \cr 1, &z>0\end{cases}$
即若预测值大于零就判为正例，小于零就判为反例，临界值零则可任意判别。
由于单位跃界不连续，而我们需要它单调可微。对数几率函数作为替代函数：

$y=\frac{ 1 }{ 1+e^{-z} }=\frac{ 1 }{ 1+e^{-(w^{T}x+b)} }$
$\Rightarrow ln \frac{ y }{ 1-y } = w^{T}x+b$
若将 $y$ 视为样本 $x$ 作为正例的可能性，则 $1-y$ 是反例的可能性，两者比值 $\frac{ y }{ 1-y }$ 称为“几率”，反映了正例的相对可能性，对几率取对数则得到了“对数几率”，对应的模型称为“对数几率回归模型”（PS：是一种分类学习方法）
接下来的问题就是如何确定 $w$ 和 $b$ 。将 $y$ 视为后验概率估计 $p(y=1|x)$ 则
$ln \frac{ p(y=1|x) }{ p(y=0|x) } = w^{T}x+b$

$p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}$
$p(y=0|x)=\frac{1}{1+e^{w^{T}x+b}}$

通过“极大似然法”来估计 $w$ 和 $b$ 使每个样本 $\{ (x_{i},y_{i}) \}_{i=1}^{m}$ 属于其真实标记的概率越大越好。对概率回归模型最大化“对数似然”
$L(w,b)=\prod_{i=1}^{m}p(y_{i}|x_{i};w,b)$

$\Rightarrow l(w,b)=\sum_{i=1}^{m}ln \;p(y_{i}|x_{i};w,b)$

其中 $p(y_{i}|x_{i};w,b) = y_{i}p_{1}(y=1|x;w,b)+(1-y_{i})p_{0}(y=0|x;w,b)$
代入对数似然中
$l(w,b)=\sum_{i=1}^{m}ln\frac{ y_{i}e^{w^{T}x+b}+1-y_{i} }{ 1+e^{w^{T}x+b} } = -\sum_{i=1}^{m}(ln(1+e^{w^{T}x+b})-ln(y_{i}e^{w^{T}x+b}+1-y_{i}))$

$ln(y_{i}e^{w^{T}x+b}+1-y_{i})$ 中 $y_{i}$ 取值为 $\{ 0,1 \}$ ,故等价于 $y_{i}(w^{T}x+b)$

则 $l(w,b)=-\sum_{i=1}^{m}(ln(1+e^{w^{T}x+b})-y_{i}(w^{T}x+b))$
即最小化 $\sum_{i=1}^{m}(ln(1+e^{w^{T}x+b})-y_{i}(w^{T}x+b))$

可用梯度下降法、牛顿法等可求的最优解。

线性判别分析（LDA）：

LDA思想：

线性判别分析（Linear Discriminant Analysis，LDA）是一种经典的线性学习方法，在二分类问题上因为最早由Fisher提出，亦称“ Fisher判别分析”。
给定训练集，设法将样例投影到一条直线上，使得同样样例的投影点尽可能近、异类样例的投影点尽可能远；在对新样本进行分类的时候，将其投影到同样的这条直线上，再根据投影点位置来确定新样本的类别。

LDA算法：

数据集： $D=\{(x_{i},y_{i})\}^{m}_{i=1}$ ， $y_{i}=\{0,1\}$
令 $X_{i}$ 、 $\mu_{i}$ 、 $\Sigma_{i}$ 分别表示第 $i\in\{0,1\}$ 类示例的集合、均值向量、协方差矩阵。
$\mu_{i}=\frac{1}{N_{i}}\sum_{x\in X_{i}}x$
$\Sigma_{i}=\sum_{x\in X_{i}}(x-\mu_{i})(x-\mu_{i})^{T}$
由于是两类数据，因此我们只需要将数据投影到一条直线上即可。假设投影直线向量 $w$ ，则对任意的一个样本 $x_{i}$ ，它在直线 $w$ 的投影为 $w^{T}x_{i}$ ，对于我们的两个类别的中心点 $\mu_{0}$ ， $\mu_{1}$ ，在直线 $w$ 的投影为 $w^{T}\mu_{0}$ ， $w^{T}\mu_{1}$ 。由于LDA需要让不同类别的数据类别中心之间的距离尽可能的大，也就是我们需要最大化 $\| w^{T}\mu_{0}-w^{T}\mu_{1} \|^{2}$ ，同时我们希望同一种类别数据的投影点尽可能的接近，也就是同样的样本投影点的协方差 $w^{T}\Sigma_{0}w$ 和 $w^{T}\Sigma_{1}w$ 尽可能的小，即最小化 $w^{T}\Sigma_{0}w+w^{T}\Sigma_{1}w$ 。
综上所诉，我们的优化目标为：
arg max $J(w)=\frac{\| w^{T}\mu_{0}-w^{T}\mu_{1} \|^{2}}{w^{T}\Sigma_{0}w+w^{T}\Sigma_{1}w}=\frac{w^{T}(\mu_{0}-\mu_{1})(\mu_{0}-\mu{1})^{T}w}{w^{T}(\Sigma_{0}+\Sigma_{1})w}$
定义类内散度矩阵 $S_{w}$ 为：
$S_{w}=\Sigma_{0}+\Sigma_{1}=\sum_{x\in X_{0}}(x-\mu_{1})(x-\mu_{1})^{T}+\sum_{x\in X_{1}}(x-\mu_{1})(x-\mu_{1})^{T}$
定义类间散度矩阵 $S_{b}$ 为：
$S_{b}=(\mu_{0}-\mu_{1})(\mu_{0}-\mu{1})^{T}$
优化目标重写为：
arg max $J(w)=\frac{w^{T}S_{b}w}{w^{T}S_{w}w}$
通过广义瑞利熵，得知 $J(w)$ 最大值为矩阵 $S_{w}^{-\frac{1}{2}}S_{b}S_{w}^{-\frac{1}{2}}$ 的最大特征值，而 $S_{w}^{-1}S_{b}$ 的特征值和 $S_{w}^{-\frac{1}{2}}S_{b}S_{w}^{-\frac{1}{2}}$ 的特征值相同， $S_{w}^{-1}S_{b}$ 的特征向量 $w^{'}$ 和 $S_{w}^{-\frac{1}{2}}S_{b}S_{w}^{-\frac{1}{2}}$ 的特征向量 $w$ 满足：
$w^{'}=S_{w}^{-\frac{1}{2}}w$ 。
对于二分类问题， $S_{b}w$ 的方向恒为 $\mu_{0}-\mu_{1}$ ，令 $S_{b}w=\lambda(\mu_{0}-\mu_{1})$ ，将其带入 $(S_{w}^{-1}S_{b})w=\lambda w$ ，可以得出 $w=S_{w}^{-1}(\mu_{0}-\mu_{1})$ ，也就是说我们只要求出原始二分类样本的均值和方差就可以确定最佳的投影方向 $w$ 了。