参考文章:
让 P-value 更加的浅显易懂
p值详解
简单情况下的P值计算
离散变量的P值
p值就是随机事件生成数据的的概率,或者是其他相等或更稀有的事件的概率:
a p-value is the probability that random chance generated the data, or something else that is equal or rarer
这句话单单放出来很难理解,下面我们将其拆分成三句话,一步步理解:
第一句话:a p-value is the probability that random chance generated the data
,这句话是讲,p值是你所观察到的,能够随机生成这些数据的事件的概率。在下面的这个案例中,就是0.25,如下所示(事件HH、HT、TH、TT的概率分别为0.25、0.25、0.25、0.25):
第二句话:
or something else that is equal
,这句话是讲,跟得到这个结果相同的概率的事件,在这个案例中,就是说TT的概率与HH的概率是相同的,如下所示:第三部分:
or rarer
,这个意思是说,出现某个更小概率的事件,由于在这个案例中,没有其它的事件,因此这一部分就是0随后将这三部分相加得P值,即0.5:
也就是说,p值是得到该事件的概率,以及与出现相同概率事件的概率,比该事件的概率还要小的事件的概率之和
连续变量的P值
该变量的值是连续的,如身高,可以是175.2,174.3,也可以是174.456,它们带有小数点。对于这类数据,我们可以用密度(density)
来替代它们,如下所示:
此时该曲线叫做概率密度曲线,下面的这个数据是1996年巴西女性15岁到49岁之间的身高数据,这个曲线下的面积,即红色部分表示了一个人的身高在这个范围内的概率,为1,如下所示:
其中,142cm到169cm这个范围在曲线下的面积是95%,换句话讲,如果我们每次测量一个人的身高,它们有95%的可能性在142cm到169cm之间,如下所示:
可以推测,大于169cm的范围与曲线所围成的面积是2.5%,这也就是说,如果我们测量一个巴西的女性,它有2.5%的概率身高高于169cm;同时,小于142cm的范围与曲线围成的面积也是2.5%
现在我们要计算某些人身高是142cm的p值,那么它的p值就是低于142cm的概率加上大于169cm的概率,如下图所示:
则该事件的P值结果为0.05
假设检验下的P值
P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率
硬币投掷实验
我们以硬币投掷实验
为例进行说明P值含义
在100次硬币投掷实验中,观察到出现90次正面,10次反面(事件Q)。那么这个样本观察结果算极端吗?怎么样的事件才是“极端的”?简单来说,如果一个事件很极端,那么比它本身“更极端”的事件就非常少(比如,“91次正面,9次反面”、“91次反面,9次正面”等情况才比它更极端)
但事件Q只是从一次实验中得出的。我们可以重复做这个实验,比如100次,每次都投掷100次,记录下的正面数X,它构成一个二项分布,X~B(n,p),其中,n=100,p=0.5。根据某个中心极限定理,正态分布是二项分布的极限分布,上面的二项分布可以由均值为np=50,方差为np(1-p)=25的正态分布来近似。我们在这个近似的正态分布的两端来考察所谓“更极端”的事件,那就是正面数大于90或者小于10
在上述近似的正态分布中,P值就等于X>90 或 X<10的概率值(记做,P{X>90 or X<10})。根据对称性,这个概率值等于2*P{X<10}=1.2442E-15
上面我们的确求出了一个非常小的P值,但如何不含糊地确定事件Q就是很“极端”呢? 事先确定的显著性水平α,本身就是一个判定法则。只要P值小于显著性水平α,我们就认为,在认为原假设为真的情况下出现的事件Q,是如此的极端,以至于我们不再相信原假设本身
一句话,我们的判定法则是:P值小于显著性水平α,拒绝原假设
螃蟹体温实验
用一个双侧的单样本T检验做例子。假设我们想知道,螃蟹的平均温度,跟空气的温度(24.3)有没有统计差别(α=0.05)。事先确定的假设检验的形式表达如下:
零假设(H0): μ=24.3°C
备择假设(Ha): μ≠24.3°C
以下是25只螃蟹在温度为24.3°C下的体温(单位:°C):
25.8 24.6 26.1 22.9 25.1
27.3 24 24.5 23.9 26.2
24.3 24.6 23.3 25.5 28.1
24.8 23.5 26.3 25.4 25.5
23.9 27 24.8 22.9 25.4
一些基本的算术结果:
样本均值:X¯=25.3
样本量:n=25
样本方差:s^2=1.8
样本均值的标准误差:s(X¯)=s2/n−−−−√=0.27
这里T检验的思路如下:
我们先假设H0为真,即认为螃蟹的平均温度跟空气温度没有差异(P), μ=24.3°C。有一个极端事件Q,如果原假设H0成立,Q就不成立(if H0 then probably NOT Q);但如果在原假设为真的情况下,出现了这么一个Q,那我们就有把握拒绝原假设
样本均值X¯是总体均值μ的最好的估计,在本例中,X¯=25.03。这个样本均值只是一个估计值。它只是从总体的一个随机样本中得到的(样本是上述25只螃蟹)。我们不知道这次实验结果是不是“极端”事件,而判断一个事件是不是极端事件,根据上面的讨论,我们可以重复做上述实验,比如100次,每次都抓25只螃蟹,都在空气温度24.3的状态下测量其体温,然后也各自求出一个样本均值来。我们容易得知,这种实验出来的样本均值,辅以适当的数学形式,就服从一个自由度为24=25-1的t分布,即(X¯−μ)/s(X¯)∼t(24)
。样本均值X¯=25.03,在这个自由度为24的t分布下,有一个对应的t值,t=25.03-24.3/0.27=2.704。现在我们可以在整个分布里考察这个t值。在这个自由度为24的t分布里,我们看 t=2.704是不是一个“极端”事件Q。根据对称性,比Q更极端的是那些大于2.704或者小于-2.704的点
从上图可以看到,在这个t分布里,比t=2.704更“极端”的点占整个分布的0.0124。这个0.0124就是我们要求的P值。这个P值小于我们事先选定的显著性水平α=0.05,因此我们可以拒绝原假设,认为这批螃蟹的平均体温不等于空气温度。
以上就是两篇文章的关于P值内容,有兴趣的小伙伴可以去看看原文,帮助大家对P值有一个更深的认知
另外,在搜集数据之前,我们把想证明的结论写成备择假设,把想拒绝的结论写成原假设。之所以写成这个形式,因为从上面不厌其烦的讨论中得知,这是方便逻辑/统计推断的形式:当我们难以拒绝原假设时,只能得到结论,原假设也许是真的,现在还不能拒绝它;而当我们能够拒绝原假设时,结论是:它就很有把握是不真的。