高斯分布:
连续变量一种最重要的概率分布:正态分布
对于一元实值变量,高斯分布被定义为:
其中参数:被叫做均值,被叫做方差,方差的平方根,由给定,叫作标准差,方差的倒数,叫作精度。
根据上式,我们可以得到:
并且很容易证明高斯分布式高度归一化的,因此:
因此式(1.46)满足合理地概率密度函数的两个要求。
我们已经能够找到关于的函数在高斯分布下的期望,特别地,的平均值为:
由于参数表示在分布下的的平均值,它通常被叫做均值,类似的,二阶距:
的方差被定义为:
分布的最大值被叫做众数,对于高斯分布,众数与均值恰好相等。
对于维向量的高斯分布:
其中维向量被称为均值,的矩阵,被称为协方差,表示的行列式。
假设有一批数据服从独立同分布,我们知道对于两个独立事件的联合概率可以由事件的边缘概率的乘积得到,由于数据是服从独立同分布的,因此对于给定的和,可以得到数据集的概率为:
上式就是高斯分布的似然函数。
使用一个观测数据集来决定概率分布的参数的一个通用规则是寻找使似然函数取得最大值的参数值。简化后续数学分析和有助于数值计算,写作对数形式:
关于,最大化函数可以求得最大似然解:
这是样本均值,及观测到的{}的均值。关于最大化函数,我们求得方差的最大似然解:
这是关于样本均值的样本方差,注意我们要同时关于和来最大化函数,但是在高斯分布的情况下,的解和无关,因此我们可以先对求解,然后再对求解。
最大似然估计的平均值会得到正确的均值,但是将会低估方差,因子为,下图可以解释:
下面的对于方差参数的估计是无偏的: