机器学习系列1：线性回归详解

一、什么是机器学习？

机器学习包括：
1.监督学习（supervised learning）

①回归：寻找一个假设函数 $h(x)$ ，根据大量的训练集X来预测目标变量Y，若要预测的目标变量是连续的，则是回归问题，如房价预测。
②分类：如果预测的目标变量只能取一小部分离散值，则是分类问题。

2.无监督学习（Unsupervised learning）

没有标记的数据，如聚类，降维等。

3.半监督学习（Semi-supervised learning）

有标记的数据不够多

4.迁移学习（Transfor learning）

在已经学习的基础上去预测其他任务。

5.结构化学习（Structed learning）

函数输出产生结构化产物，如文本、图片、音频等。

二、线性回归的Loss Function

假设现在是对房价预测，每个样本有两个特征：面积和卧室数目，令：
$x^i_1$ 为第i个样本的第1个特征
$x^i_2$ 为第i个样本的第2个特征
假设函数如下 $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x2=\sum_{i=1}^m\theta_ixi=\theta^Tx$
定义Loss Function为： $J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2$
这个损失函数就是常见的最小二乘，为什么要使用这样的损失函数？
先介绍中心极限定理：
粗略地说，中心极限定理说明大量独立随机变量的和近似地服从正态分布，如果随机变量X服从参数为 $\mu$ 和 $\sigma^2$ 正态分布，则其密度函数为： $f(x)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})$
其中 $\mu$ 等于期望 $E[X]$ , $\sigma^2$ 等于方差 $Var(x)$
假设房价预测模型中真实值和预测值存在以下关系： $y^i=\theta^Tx^i+\varepsilon^i$
其中 $\varepsilon^i$ 是建模时未考虑到的因素（如其他因素对房价产生的影响）或者是随机的噪音。
进一步假设 $\varepsilon^i$ 是独立同分布的，根据中心极限定理， $\varepsilon^i$ 服从正态分布，其期望 $E[X]=0$ ，方差 $Var(x)=\sigma^2$ ，及即 $\varepsilon^i$ ~ $N(0,\sigma^2)$ ，其密度函数： $p(\varepsilon^i)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\varepsilon^i)^2}{2\sigma^2})$
进一步推得： $p(y^i|x^i;\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2})$
$p(y^i|x^i;\theta)$ 表示对于给定的 $x^i$ 时， $y^i$ 的分布情况，用 $\theta$ 来代表该分布的参数，令 $X$ 代表所有 $x^i$ 的集合，再给定 $\theta$ ，则此时 $y$ 的分布情况可以表示为： $p(\vec{y}|X;\theta)$
可以把它看成是 $\vec{y}$ 的函数， $\theta$ 为其参数，则可以表示成： $L(\theta)=L(\theta;X,\vec{y})=p(\vec{y}|X;\theta)$
$L(\theta)$ 即为似然函数，进一步推导可得： $L(\theta)=\prod_{i=1}^mp(y^i|x^i;\theta)=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2})$
$L(\theta)$ 即为 $y与x$ 之间的概率模型。
由最大似然法可知，要寻找对 $\theta$ 的最佳猜测，我们要选择使 $L(\theta)$ 尽可能大的 $\theta$ ，为了方便计算，对 $L(\theta)$ 取对数得：
$\begin{split} l(\theta)={} &logL(\theta)=log\prod_{i=1}^mp(y^i|x^i;\theta){} \\ &=\sum_{i=1}^mlog\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2}){} \\ &=mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^m(y^i-\theta^Tx^i)^2 \end{split}$
即意味着让 $\frac{1}{2}\sum_{i=1}^m(y^i-\theta^Tx^i)^2$ 取到最小值，这也就是成本函数 $J(\theta)$ 的由来。
可以证明， $J(\theta)$ 是一个凸函数（对 $J(\theta)$ 计算二阶导数可以发现其恒大于等于0），凸函数没有局部最优点只有一个全局最优解，所以不会陷入局部最小，就像方圆五百里只有一个最高的山峰，而不是坑坑洼洼的丘陵。

三、梯度下降

对损失函数进行求导： $\begin{split} \frac{\partial{J(\theta)}}{\partial \theta_j}={} &\frac{\partial{}}{\partial \theta_j}\sum_{i=1}^m\frac{1}{2}(h_\theta(x^i)-y^i)^2{} \\ &=2\times\frac{1}{2}\sum_{i=1}^m(h_\theta(x^i)-y^i)\times \frac{\partial{}}{\partial \theta_j}(h_\theta(x^i)-y^i){} \\ &=\sum_{i=1}^m(h_\theta(x^i)-y^i)x_j^i \end{split}$
所以随机梯度下降的算法为：
$\begin{split} while\lgroup {}\\ {}&\theta_j:=\theta_j-\alpha\sum_{i=1}^m(h_\theta(x^i)-y^i)x_j^i \quad(对所有j){}\\ \rgroup \end{split}$
批量梯度下降法：
$\begin{split} while\lgroup {}\\ {}&i从1到m:\lgroup {}\\ {}&\theta_j:=\theta_j-\alpha (h_\theta(x^i)-y^i)x_j^i \quad(对所有j){}\\ {}& \qquad\rgroup{}\\ \rgroup \end{split}$

三、正则化

正则化是为了防止模型过拟合，一般都是在损失函数后面加上正则项，构成目标函数： $\theta^*=argmin_\theta\sum_iL(y^i,f(x_i;\theta))+\lambda\Omega(\theta)$
$\lambda\Omega(\theta)$ 即为正则项，一般有 $L_0,L_1,L_2$ 范数。

1.L0范数：

$\Omega(\theta)=\sum_{i=1,\theta_j \neq0}^m\theta_j^0$
即 $L_0$ 范数指向向量中的非0元素个数，若用 $L_0$ 范数来规范权重矩阵 $\theta$ ，就是希望 $\theta$ 中大部分都为0，即让权重是稀疏的。

2.L1范数

$\Omega(\theta)=\sum_{i=1}^m|\theta_j|$
$L_1$ 范数是 $L_0$ 的最优凸近似， $L_1$ 范数同样可以实现稀疏。
一般常用 $L_1$ 而不是 $L_0$ ，原因有下：
$L_0$ 范数很难优化， $L_1$ 是 $L_0$ 的最优凸近似，比 $L_0$ 更容易求解，他们都可以实现稀疏。

3.L2范数

$\Omega(\theta)=\sum_{i=1}^m\theta_j^2$
$L_2$ 也被称为岭回归或权重衰减。
$L_2$ 正则化可以让权重变得很小，接近于0，但不为0，权重越小，越不容易过拟合，个人的理解是，假设函数中有高次项，而高次项的权重越小，对函数的影响也就越小，不会造成明显的过拟合。
$L_1$ 与 $L_2$ 的对比如下：
将这两者的优化目标列出来：
$Lasso(L1):min_\theta\frac{1}{m}||h_\theta(x)-y)||^2.s.t||\theta||_1\le C$
$Ridge(L2):min_\theta\frac{1}{m}||h_\theta(x)-y)||^2.s.t||\theta||_2\le C$
图形：

image

等高线看成损失函数，L1的约束条件可以表示成一个四边形，L2的约束条件可以表示成一个圆形，等高线与约束条件相交的一点则为最优点。
L1正则化的情况下，等高线与L1-ball大多数情况下都会在“角”上相交，例如图中交点,这也解释了为什么L1具有稀疏性，而等高线与L2-ball一般不会在零点处相交，只会接近0.
总结：
1.会产生稀疏性，趋向于产生少量的特征，其他特征权重都为0，常用于特征选择；
2.会选择更多特征，且都接近0.
3.和都可以防止过拟合。
4.如果一个模型中只有少量的特征时有用的，那就选择
5.如果所有特征都有用且作用比较匀，选择。
此外，都只对起作用，不用于截距,因为对应的并不算特征，对模型复杂度没有影响。