1. 事件的关系与运算
2. 概率的基本公式
3. 事件的独立性
4. 随机变量及其概率分布
随机变量及概率分布:取值带有随机性的变量,严格地说是定义在样本空间上,取值于实数的函数称为随机变量,概率分布通常指分布函数或分步律。
4.1 离散型随机变量的概率分布
4.2 连续型变量的概率密度(概率密度非负可积)
5. 随机变量的数字特征-期望
6. 方差
7. 协方差和协方差矩阵
假定给定了n个样本的集合,则均值、方差和标准差的计算公式如下:
均值是描述样本的平均值,标准差描述的是样本集合的各个点到均值的距离的平均,体现的是样本的离散程度,而方差仅仅是标准差的平方。
这里描述的方差仅是针对一维数据的情况进行统计描述,假设我们需要对两个集合的数据进行分析,比如长相和他受女孩欢迎程度之间是否有联系,那么协方差就是度量两个随机变量之间的统计量:
如果协方差为负值,表示负相关,即长相越帅,女孩越不喜欢
如果协方差为正值,表示正相关,即长相越帅,女孩越喜欢
如果协方差为零,表示负相关,即长相与女孩喜不喜欢没有关系
协方差的一般表示
对于一个n维随机变量,两两计算协方差,可以得到协方差矩阵。
协方差是两个随机变量具有相同方向变化趋势的度量,若Cov(X,Y)>0,它们变化趋
势相同,若Cov(X,Y)<0,它们变化趋势相反,若Cov(X,Y)=0,X和Y不相关。
8. 协方差和独立、不相关
9. 相关系数(皮尔逊相关系数)
当且仅当X和Y有线性关系时,等号成立。
10. 常见分布
10.1 0-1分布
10.2 二项分布
二项分布是n个独立试验成功次数的离散概率分布,每次实验的成功概率为p,单次成功或失败的实验又称为伯努利试验。
10.3 泊松分布
在实际事例中,当一个随机事件,以固定的平均瞬时速率或密度 随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布某一服务设施在一定时间内到达的人数,如汽车站台的候客人数。机器出现的故障数自然灾害发生的次数。
10.4 均匀分布
10.5 指数分布
指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔,软件更新的时间间隔。许多电子产品的寿命分布一般服从指数分布,有些系统的寿命分布也可以用指数分布来近似,它在可靠性研究中是最常用的一种分布形式。
10.6 正态分布(高斯分布)
正态分布(高斯分布)特点(为何如此重要)中心极限定理的完美体现分布的值非常集中分布在中心区域面积可以精确的计算出来。
与正态分布相关的一个重要定理是中心极限定理,即任何分布的抽样分布,当样本足够大时,其渐进分布都是正态分布。
10.7 总结
11. 广义线性模型
我们有许多分布二项分布、高斯分布、泊松分布、几何分布、均匀分布等等。
能否将这些分布写成统一的形式呢?如果可以形式是怎样的呢?
当固定T时,分布属于指数家族中的哪种分布就由a和b两个函数决定
泊松分布,伽马分布,指数分布,多元高斯分布,Beta分布,Dirichlet分布等等都是指数分布族。根据这些分布的概率密度函数可以建立相应的模型,这些都是广义线性模型的一个实例。
12. 幂律分布
没有明确的代数式子
分布趋向于0的速度远小于指数分布
热门物品与冷门物品
幂律分布的重要性:
大量社会规律服从,实践中常遇到,大数据领域经常遇到
数学期望发散,不要用均值来替代整理分布
大数定律和中心极限定理不成立。
13. 数理统计的基本概念
总体:研究对象的全体,它是一个随机变量,用X表示
个体:组成总体的每个基本元素
简单随机样本:来自总体X的n个 相互独立且与 总体同分布的随机变量称为容量为n的简单随机样本,简称样本。
14. 样本的矩
矩估计
15. 极大似然估计
极大似然估计的步骤