1 常见概率分布
1.1 均匀分布
- 分布函数与数字特征
- 若变量
服从均匀分布
,则
服从
- 若变量
服从均匀分布
, 则
服从
1.2 伯努利分布
-
分布函数与数字特征
-
参数估计
若从
总体中独立得抽取样本
,可构造关于
的似然函数:
对数形式为:
对求偏导数,令:
得到非负函数的极大值点
1.3 二项分布
-
分布函数与数字特征
1.4 多项分布
1.4.1 n维伯努利分布
将伯努利分布由单变量扩展为n维向量, 其中
为0,1变量,且
;
并假设取1的概率为
,
;
由于为0,1变量,则
由于,
相互独立,则
-
分布函数与数字特征
1.4.2 多项分布
N次独立实验中有次
= 1的概率
随机向量的每个分量服从二项分布
-
分布函数与数字特征
其中:
-
参数估计
若从总体
中独立得抽取了K个样本
(n维随机向量),则似然函数为:
分别对求偏导,得到
的极大似然估计为
1.5 Beta分布
不完全Beta函数:
Beta函数:
不完全Beta函数与对应Beta函数的比值
构成了归一化的Beta函数,它正好是满足Beta分布的随机变量的分布函数
Gamma函数与Beta函数的关系:
-
分布函数与数字特征
1.6 Dirichlet分布
Dirichlet分布可以看作Beta分布的向量推广,是关于一组n个连续变量的概率分布,
. 令
,参数
,
,记
-
分布函数与数字特征
1.7 Gaussian分布
分布函数与数字特征
-
Gaussian分布对
的依赖通过二次型表达:
称为
和
之间的马氏距离,当
是单位矩阵时,即为欧氏距离
马氏距离在回归分析中,是测量某一自变量的观测量与同一自变量所有观测量平均值差异的统计量,此值越大,说明该观测量为影响点的可能性越大。
-
协方差矩阵的特征向量方程为
对于特征向量
-
根据逆矩阵的性质,得到马氏距离的另一种表示:
其中U的行向量是
,满足
-
高斯分布的优缺点:
协方差矩阵与均值向量总计有
个独立参数,适应性强
参数以
的速度增长,导致求逆计算困难,可以只在对角矩阵上计算,但会丧失对相关性分析的能力;单峰性,不能很好地表示多峰分布
-
条件高斯分布
协方差矩阵的逆成为精度矩阵,记为
,也是对称矩阵
-
条件概率分布
由于而
,于是
条件分布的数字特征为:
边缘概率分布
-
Gaussian分布贝叶斯定理
令x的边缘分布和条件分布形式如下(x的维度设为
,y的维度设为
):
则:
即y的边缘分布服从
x在给定y的条件下的边缘分布服从
-
参数估计
假设从多元正态总体
中抽取了N个样本
对数似然函数:
分别对向量和矩阵
求偏导,得到参数的极大似然估计:
其中,该极大似然估计为总体参数的无偏估计
而
2 共轭分布
假设变量服从分布
,
为参数,
为变量
的观测样本,假设参数
服从先验分布
。
若由先验分布和抽样分布(似然函数)
决定的后验分布
与
是同种类型的分布,则称先验分布
是
(抽样分布)的共轭分布
2.1 Beta-二项分布共轭
- 假设
,
为观测样本,
为观测样本的均值,
, 其中a,b为已知参数,则
的后验分布为:
由此可知的后验服从
,即Beta分布与二项分布共轭
2.2 Dirichlet-多项分布共轭
-
假设参数
服从多项分布,先从总体中抽出n个样本,样本向量和为
则后验分布有
仍服从Dirichlet分布
2.3 正态分布-正态分布共轭
-
假设已知总体方差为
,均值未知,先从该总体中抽出n个样本,则
假设
的先验分布服从
则的后验分布为
仍服从正态分布