【机器学习系列】高斯分布:最大似然估计求解

作者:CHEONG
公众号:AI机器学习与知识图谱
研究方向:自然语言处理与知识图谱

原创不易,转载请告知并注明出处!

二话不说咱先抛出一个问题:数据集Data X服从高斯分布,如何推导X的均值和方差

欲解答上述问题,先对问题进行拆解:

1、何为高斯分布,高斯分布概率密度函数是什么

2、用什么方法推导:最大似然估计法,那最大似然估计是什么

3、如何推导,最大似然估计法推导高斯分布均值和方差的过程

那接下来我们就先对上面四个问题一个一个来看吧。


一、高斯分布

下面先说明一元高斯分布,标准一元正态分布以及多元高斯分布之间的关系以及其概率密度函数分别是什么,而对于边缘高斯分布,条件高斯分布以及混合高斯分布之后再单独细讲。


1、一元高斯分布和标准正态分布

如果数据集x服从均值为u,方差为\sigma的一元高斯分布,其概率密度函数为

而标准一元正态分布既对数据集x进行标准化处理:

z服从均值为0,方差为1的标准正态分布,其概率密度函数为

这里给出高斯分布满足的两条常用性质,在之后证明中会使用到:

(1)如果x \sim N(u, \sigma^2)且a和b是实数时,那么

(2)如果x \sim N(u_x, \sigma^2_x)y \sim N(u_y, \sigma^2_y)是统计独立的正态随机变量,那么

  • 他们的和也满足正态分布
  • 他们的差也满足正态分布


2、多元高斯分布

这里先介绍一种简单的情况,那就是多元维度之间相互独立时,若各变量之间相互独立,则联合概率密度函数等于各自概率密度的乘积。

如果X=(x_1, x_2, ..., x_d)^T,且各维度之间相互独立,则X的概率密度函数为

对上面公式进行简化处理,先简写成

其中:

上式中\Sigma是协方差矩阵,由于变量各个维度之间不相关,因此协方差矩阵只有对角线的位置有值,因此推导出多元高斯分布的概率密度函数为:

二、最大似然估计

先从下图中的例子泛泛的理解一下最大似然估计的思想:

通俗来说,最大似然估计法,就是利用已知的样本结果信息,反推最大可能(最大概率)产生这个结果的模型参数值,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即模型已定,参数未知。

最大似然估计一个重要前提假设是:数据样本之间是独立同分布的。在用最大似然估计解高斯分布参数前,先看一般情况,现考虑有一个数据集D,服从一定的概率分布,用最大似然估计来推导该数据集的参数向量\Theta,记已知的样本集为:

似然函数,即联合概率密度函数:

联合概率密度函数p(D|\Theta)称为相对于数据集D的参数\Theta的似然函数,先再就是要求满足似然函数最大的参数值,也就是求使得该组样本出现的概率最大的\Theta

实际中为了便于分析,都会将其定义为对数似然函数:

现在知道了最大似然估计的用法,接下来便用最大似然估计来求解高斯分布的参数,即均值和方差。


三、最大似然估计推导高斯分布均值和方差

先有一批数据集Data X服从高斯分布,样本之间独立同分布:

用最大似然估计求解参数\Theta,则对数似然函数为:

其中p(x_i|\Theta)即是高斯分布的概率密度函数

因此均值为

对上述函数求导极值点既是极小值

则可得其均值为

至此我们通过最大似然估计求导得出了均值u,接下来用同样的方法求解方差

因此可以求得参数方差为

至此我们已经通过最大似然估计求得了高斯分布的均值和方差

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容