〇、说明
极大似然估计(Maximum Likelihood Estimation,MLE),也称最大似然估计。统计学中,极大似然估计是重要的参数估计方法;机器学习领域,也经常看到直接使用极大似然估计以及使用极大似然思想的方法。
在这篇笔记里,主要涉及极大似然的思想和非参数极大似然估计NPMLE。
如有错误疏漏,烦请指出。如要转载,请联系笔者,hpfhepf@gmail.com。
一、常规极大似然估计
1.1、问题描述
在参数估计[1]任务中,极大似然估计在给定样本且已知概率分布(密度)条件下,估计分布参数的重要方法。
(在机器学习中,会用到未知概率分布(密度)的极大似然估计,见下文)
1.2、极大似然思想
极大似然估计的核心思想,就是估计出使样本出现概率最大的参数作为分布(密度)参数;从另一个角度,极大似然估计认为已经发生的(这些样本出现)就是是概率最大的,从而求出分布(密度)参数。
1.3、极大似然估计
极大似然估计在绝大多数概率论或统计课程中都有详细的介绍,我这里就不赘述了,具体参见课本和网上资料。
这里贴几个还不错的网上资料:
维基百科《极大似然估计》[2]
《最大似然估计》[3]
二、非参数极大似然估计
2.1、缘起
笔者在参考李航博士《统计学习方法》[4]学习最大熵模型,遇到条件概率P(Y|X)的对数似然函数(6.2.4节)时,真的是一头雾水。如下图
一直接触的极大似然估计都是已知模型,通过样本求参数。而这个似然函数,模型未知,参数未知,更不知道是怎么来的,懵圈了。。。
2.2、搜寻
为了搞清楚这个问题,查阅了《统计学习方法》的参考文献《A Maximum Entropy Approach to Natural Language Processing》[5],也没有搞清楚这个问题。
后来各种关键字在google上搜,终于搜到了比较靠谱的信息,大概如下:
https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf[6]
http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf[7]
http://statweb.stanford.edu/~owen/empirical/[8]
这大概是一个经验似然(Empirical Likelihood)问题,但是有点艰深,笔者并不打算深入挖掘下去,只是从机器学习数学基础的角度搞清楚上述公式的由来。笔者看到了[4]的第一个公式,终于明白了李航博士书中公式的由来,如下。
2.3、NPMLE
非参数极大似然估计(Non-Parametric Maximum Likelihood Estimation,NPMLE),在大多数初级的概率论课本里是没有的。
这里根据常规MLE的假设和建模过程,来简略推导NPMLE的似然函数。下图[3]为常规MLE的假设和似然函数建模过程。
参考常规MLE,假设非参数的分布有相同的采样,但没有参数。
附录
参考
[1]、百度百科《参数估计》
[2]、维基百科《极大似然估计》
[3]、《最大似然估计》
[4]、李航《统计学习方法》
[5]、Adam L. Berger, Stephen A. Della Pietra《A Maximum Entropy Approach to Natural Language Processing》
[6]、https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf