在统计学中，最大似然估计（Maximum likelihood estimation，缩写为MLE）和最大后验概率估计 （Maximum a posteriori estimation, 简称MAP）是很常用的两种参数估计方法，在回归问题中几种模型都源自这两种参数估计方法，所以详细理解这MLE和MAP的思路与区别对于回归问题模型的理解很有帮助。

似然函数

在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。设总体分布为 $f(X；\theta)$ ， $x_{1} ,x_{2} ,x_{3} ,...,x_{n}$ 是从整体分布中抽出的样本，那么样本( $x_{1} ,x_{2} ,x_{3} ,...,x_{n}$ )的联合分布为：
$L(x_{1} ,x_{2} ,...,x_{n} ；\theta)$ = $f(x_{1}；\theta)f(x_{2}；\theta )...f(x_{n}；\theta)$
当固定 $\theta$ 时，L是一个关于 $x_{1} ,x_{2} ,x_{3} ,...,x_{n}$ 的函数，称作概率密度函数。
当固定 $x_{1} ,x_{2} ,x_{3} ,...,x_{n}$ 时，把L看作 $\theta$ 的函数，称作似然函数。

最大似然估计

通过似然函数的定义我们知道，似然函数 $L(x_{1} ,x_{2} ,...,x_{n} ；\theta)$ 是参数 $\theta$ 的一个函数。在已有样本( $x_{1} ,x_{2} ,x_{3} ,...,x_{n}$ )的条件下，最大似然估计的过程，就是找一个合适的 $\theta ^*$ ，使得平均对数似然的值为最大。因此，可以得到以下公式：
$\theta ^* = argmaxL(x_{1} ,x_{2} ,...,x_{n} ；\theta)$

求解最大似然估计

通过上述我们可以知道最大似然估计是在求使得出现该组样本的概率最大的 $\theta$ 值，由于L也是关于样本的联合概率密度函数，所以我们可以得到以下公式:
$\theta ^* = argmaxL(x_{1} ,x_{2} ,...,x_{n} ；\theta)$ = $= argmax\prod_{i=1}^n P(x_{i}|\theta )$
实际中为了便于分析，定义了对数似然函数：
$l(\theta ) = lnL(\theta )$
$\theta ^* = argmaxl(\theta ) = argmaxlnL(\theta ) = argmax\sum\nolimits_{i=1}^nlnP(x_{i}|\theta )$
为了使得L最大，只须使得log L 最大，故在 $f$ 对 $\theta$ 存在连续偏导数时，极大似然估计量是下面微分方程的解：
$\frac{dl(\theta )}{d\theta }\ = 0$
如果有多个参数，可以使用梯度算子对多个参数进行求解。

最大后验概率估计

最大后验估计的基础是贝叶斯公式:
$p(\theta |X) = \frac{p(X|\theta)p(\theta )}{p(X)}$
公式里 $p(\theta |X)$ 是之前提到的似然函数， $p(\theta)$ 是先验概率，是指在没有任何实验数据的时候对参数 $\theta$ 的经验判断， $p(X)$ 是边缘概率，与 $\theta$ 无关，所以在优化过程中不起作用，顾可以去掉这一项， $p(\theta |X)$ 是后验概率。
最大后验概率估计即最大化 $p(\theta |X)$ ，当已有样本 $X$ 之后求 $\theta$ 的值使得后验概率最大
$\theta^* = argmaxP(\theta |X) = argmaxP(X|\theta)P(\theta)$

Least Square, Ridge回归，Lasso回归

假设根据特征的预测结果与实际结果有误差 $\varepsilon$ ：
$y = \sum_{i=1}^n \theta _{i} x_{i} + \varepsilon ^i$ = $\theta ^Tx + \varepsilon^i$
一般来讲，误差满 $\varepsilon^i$ 满足平均值为 0 的高斯分布，也就是正态分布，即 $\varepsilon^i ～N(0,\sigma ^2)$ ,那么可以知道 $y^i ～N(\theta ^Tx^i,\sigma ^2)$
用最大似然估计可推导可得：
$argmax_{\theta } L(\theta ) = ln\prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma } exp(-\frac{(y^i-\theta^Tx^i )^2}{2\sigma ^2} )$
$=$ $-\frac{1}{2\sigma ^2} \sum_{i=1}^n((y^i-\theta^Tx^i ))^2 - nln(\sqrt{2\pi} \sigma)$
最大化上式等价于最小化：
$argmin_{\theta}f(\theta) = \sum_{i=1}^n((y^i-\theta^Tx^i ))^2 = \vert \vert y - \theta^T X\vert \vert ^2$
得到熟悉的最小二乘法。

最大似然估计，最大后验概率估计，Least Square的理解