极大似然估计(maximum likelihood estimation)和Bayes统计作为当前统计领域主要的两大类计算方法同时也是研究最广泛的问题,从根本上来讲它们在计算过程中是有很大的相似成分的,因为极大似然函数估计(MLEl在计算方法上和Bayes估计的后验众数的计算类似,而且极大似然估计理论比较简单,Bayes统计的计算方法一直以来都是科学研究的重点。Bayes统计在计算方法上大题分为两大类,一类是拥有显式的后验分布,可以直接应用显式的后验分布进行估计,从而得到后验均值,这种方法一般应用于简单而且显然的似然函数:另一种方法是数据添加算法,有些时候可能数据存在缺失情况或者似然函数不是显示的难以直接计算,数据添加算法在这种情况下有很好地应用,它不是直接对复杂的后验分布进行计算,而是在已经得到的观测数据的基础上加上一些“潜在数据”,从而使得计算变得简单,完成极大化的工作。
这其中一种常用的数据添加算法一EM(expectation-maximization)算法。EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法。EM算法受到缺失思想影响,最初是为了解决数据缺失情况下的参数估计问题,其算法基础和收敛有效性等问题在Dempster,Laird和Rubin三人于1977年所做的文章Maximum likelihoodfrom incomplete data via the EM algorithmdP给出了详细的阐述。其基本思想是首先根据已经给出的观测数据的估计出模型参数的值;然后再依据上一步估计出的参数值估计缺失数据的值,再根据估计出的缺失数据加上之前已经观测到的数据重新再对参数值进行估计(这里一般采用极大似然估计),然后反复迭代,直至最后收敛,迭代结束。
EM算法作为一种数据添加算法,在近几十年得到迅速的发展,主要源于当前科学研究以及各方面实际应用中数据量越来越大的情况下,经常存在数据缺失或者不可用的的问题,这时候直接处理数据比较困难,而数据添加办法有很多种,常用的有神经网络拟合、添补法、卡尔曼滤波法等等,但是EM算法之所以能迅速普及主要源于它算法简单,稳定上升的步骤能非常可靠地找到“最优的收敛值”。随着理论的发展,EM算法已经不单单用在处理缺失数据的问题,运用这种思想,它所能处理的问题更加广泛。有时候缺失数据并非是真的缺少了,而是为了简化问题而采取的策略,这时EM算法被称为数据添加技术,所添加的数据通常被称为“潜在数据”,复杂的问题通过引入恰当的潜在数据,能够有效地解决我们的问题。