回归分析技术

回归方法

线性回归：目标函数为经验风险可以是最小二乘或似然函数
$J_R\left ( w \right ) = \frac{1}{2m}\left \| y - Xw \right \|^{2}$
最优解为：
$w = \left ( X^TX \right )^{-1}X^Ty$
岭回归：目标函数为由经验风险和L2正则化项组成的结构风险，如下：
$J_R\left ( w \right ) = \frac{1}{2}\left \| y - Xw \right \|^{2}+ \frac{1} {2}\lambda \sum \left \| w_i \right \|^{2}$
最优解为：
$\hat {w_R} = \left ( X^TX + \lambda I\right )^{-1}X^Ty$
Lasso回归：目标函数为由经验风险和L1正则化项组成的结构风险，如下：
$J_L\left ( w \right ) = \frac{1}{2}\left \| y - Xw \right \|^{2}+ \lambda \sum \left | w_i \right |$
最优解为：
$\bar {w^j} = sgn\left ( w^j\right )\left ( \left | w^j\right | - \lambda\right )_+$
其中 $w_j$ 表示其任一维度， $(x)_+$ 表示取x的正数部分， $(x)_+=max(x,0)$ 。
需要注意的是L1正则化项是不可导的，此处最优化策略一般有两种，即：贪心算法和逐一优化
介绍贪心算法和逐一优化之前需要先介绍一种最优化方法即subgradient：它把不可导点的切线斜率范围定义为这一点的subgradient，如 $f(x) = \left | x \right |$ 在x = 0处不可导，它在x = 0处的切线的斜率范围为[-1, 1]，也就是说x = 0处的导数可以是这个导数子集中的任意值

这可以解释Lasso可以得到稀疏解的原因：在x = 0处，只要经验风险的导数中的参数满足一定的条件则结构风险的导数就是0，即在x = 0处结构风险最小，因为目标函数以模型参数为自变量，即x在此处为模型参数，则多个维度的参数x = 0，导致模型的解稀疏。

下面解释贪心算法和逐一优化算法：
1、贪心算法：它实际上是每次都选取和目标最相关的特征进行优化，每次优化都用到了subgradient，常见的有：LARS、feature-sign、search
2、逐一优化：每次顺序选择一个维度的参数进行优化，每次优化都用到了subgradient，常见的有：coordinate descent，block coordinate descent等

ElasticNet回归：这个是岭回归和Lasso回归的组合，当有多个相关特征时，Lasso会选择其中的一个，而ElasticNet则会选择两个，即在变量高度相关的情况下，ElasticNet会产生群体效应。
多项式回归：这个就是自变量的指数大于1，该方法可以诱导拟合一个高次的多项式且有较低的错误，但是很可能会导致过拟合问题，可以通过画出训练误差和验证误差图来观察。
逻辑回归
线性回归通常处理因变量是连续变量的问题，如果因变量是离散值，那线性回归就不能用了，我们需要使用逻辑回归
逻辑回归用于处理因变量是分类变量的回归问题，常见的就是二分类，也可以是多分类。
因为逻辑回归处理分类问题，所以我们需要将特征的线性组合通过一个函数映射成一个0~1之间的数，这个数如果大于0.5则归为第一类，反之归到第二类中，逻辑回归中引入的函数正是logit变换，公式如下：
$p\left( y = 1 | x\right)=\theta_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_3 + ……+ \theta_nx_n$
$logit\left( p \right) = ln\left( \frac{p}{1 - p} \right) = p\left( y = 1|x \right )$
推导得：
$p = \frac{1}{1 + e^{-\left( \theta_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_3 + ……+ \theta_nx_n\right)}}$
上式p即为sigmoid函数，接下来的工作就和线性回归一样了，所以我们经常说的sigmoid传递函数的效果就是在原来特征的基础上进行了逻辑回归
Bayesian回归
Ecological回归
Robust回归

最后编辑于：2019.04.26 16:05:56