[ML] 似然函数

1. 似然函数

似然函数是关于模型参数的函数。也就是说似然函数表示在选定模型的情况下，对于已有的样本，估计模型参数的似然性。

“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。

在这种意义上，似然函数可以理解为条件概率的逆反。在已知某个参数B时，事件A会发生的概率写作： $P(A|B)={P(A,B) \over P(B)}$ , 利用贝叶斯定理， $P(B|A)={P(A|B)P(B) \over P(A)}$ , 因此，我们可以反过来构造表示似然性的方法：已知有事件A发生，运用似然函数 $L(B|A)$ ，我们估计参数B的可能性。形式上，似然函数也是一种条件概率函数，但我们关注的变量改变了： $b<->P(A|B=b)$ 注意到这里并不要求似然函数满足归一性：

一个似然函数乘以一个正的常数之后仍然是似然函数。对所有 $\alpha >0$ ，都可以有似然函数： $L(b|A)=\alpha P(A|B=b)$

个人理解：

似然函数是在已有训练样本的情况下，选取能使当前样本发生概率最大的参数。
似然函数的函数形式和概率密度函数形式一样。

2. 为什么要有参数估计

当模型已定，但是参数未知时。
例如我们知道全国人民的身高服从正态分布，这样就可以通过采样，观察其结果，然后再用样本数据的结果推出正态分布的均值与方差的大概率值，就可以得到全国人民的身高分布的函数。

3. 最大似然函数

给定一个概率分布 $D$ ，已知其概率密度函数（连续分布）或概率质量函数（离散分布）为 $f_D$ ，以及一个分布参数 $\theta$ ，我们可以从这个分布中抽出一个具有 $n$ 个值的采样 $P(x_1,x_2,…,x_n)=f_D(x_1,x_2,…,x_n|\theta)$ 但是，我们可能不知道 $\theta$ 的值，尽管我们知道这些采样数据来自于分布 $D$ 。那么我们如何才能估计出 $\theta$ 呢？一个自然的想法是从这个分布中抽出一个具有 $n$ 个值的采样 $X_1,X_2,…,X_n$ ，然后用这些采样数据来估计 $\theta$ 。
一旦我们获得 $X_1,X_2,…,X_n$ ，我们就能求得一个关于 $\theta$ 的估计。最大似然估计会寻找关于 $\theta$ 的最可能的值（即，在所有可能的 $\theta$ 取值中，寻找一个值使这个采样的“可能性”最大化）。这种方法正好同一些其他的估计方法不同，如 $\theta$ 的非偏估计，非偏估计未必会输出一个最可能的值，而是会输出一个既不高估也不低估的 $\theta$ 值。