第三章谈概率分布
郭靖的内力能支撑多久,武林绝学“降龙十八掌”--金庸小说《神雕侠侣》
引言:
概率分布是统计学的基础,统计学中不少概念和思想都与概率分布有关系。正态分布、二项分布等是很多统计分析的基础。
3.1累积分布与概率密度的通俗理解
累积分布F(x) 概率分布f(x)
二项分布、正态分布、t分布都属于概率密度函数,他们的曲线下方面积为100%
3.2用Weibull分布寻找生存规律
Q:为什么非要一种分布呢?
A:所有的分布都有其固定的形状,只要确定了相应的参数,就可以明确该分布的形状。
Weibull分布常用语生存数据的拟合,描述死亡人数的变化规律。形状由入和p两个参数决定形状。
3.3用Logistic分布探索疾病流行规律
Logistic分布常用于研究一些物种的生命周期演变规律,如人口变化、生物种群变化、疾病感染情况变化、死亡人数的变化。
二参数:
内容扩展
我们通常说的logistic回归模型,上限和下限是确定的。因为logistic回归主要用来分析阳性率,上限为1,下限为0,对于率而言,一定在0%和100%之间。
3.4“普通的正态分布”
1.概率密度函数:
需注意:1.均值是位置参数,改变正态分布的位置
2.标准差是形状参数,标准差越小,分布越瘦高,标准差越大,分布越矮胖。参见公式
2.正态分布的面积规律
正态分布中,均值为中心,士1 倍标准差范围内面积为68.2%,士1 2倍标准差面积为95.4%,士13倍面积为99.7%
心中疑惑解答:
p<0.05认为差异有统计学意义?
均数往左或往右各1.96倍标准差的时候,对应左右侧面积之和为5%,因为这种概率不是很高,所以认为其是小概率事件。
3.正态分布规律应用
六西格玛质量控制
6倍标准差,超出6倍标准差的面积为百万分之二
4.标准正态分布
一个以0为中心,以1为标准差的正态分布。
横坐标为1.96,对应右侧面积为0.025.
3.5几种常用的分布
3.5.1“学生”发明的t分布
t分布为小样本时的正态分布,当数据量大了就变成标准正态分布。随自由度变化而变化,自由度越小,偏离越大。
3.5.2标准正态分布衍生出的X2分布
X分布与标准正态分布有直接的关系,对于一个服从标准正态分布的随机变量Z,那它的平方服从自由度为1的X2分布。换句话说,对于自由度为1的X2分布,X2的值是标准正态分布中Z的平方。
X2分布呈偏态分布,随着自由度增加,偏度逐渐减小。当自由度趋向于无穷时,X2分布趋向于正态分布。
重点:Z2服从自由度为1的X2分布,Z1平方+Z2平方+...Zn平方则服从自由度为n的X2分布。
3.5.3F分布
与方差有关的分布,可用于分析两个方差是否相等,方差是否等于某一确定的数值F=S1平方/S2平方,服从自由度1=n1-1和自由度2=n2-1的F分布。所以,F分布是方差比的分布。当分子自由度小,F分布呈偏态分布;随分子自由度增加,趋于正态。由于组别数不会太多,所以F分布一般呈偏态。