P值是什么?

参考文章:
让 P-value 更加的浅显易懂
p值详解

简单情况下的P值计算


离散变量的P值

p值就是随机事件生成数据的的概率,或者是其他相等或更稀有的事件的概率:

a p-value is the probability that random chance generated the data, or something else that is equal or rarer

这句话单单放出来很难理解,下面我们将其拆分成三句话,一步步理解:

第一句话:a p-value is the probability that random chance generated the data,这句话是讲,p值是你所观察到的,能够随机生成这些数据的事件的概率。在下面的这个案例中,就是0.25,如下所示(事件HH、HT、TH、TT的概率分别为0.25、0.25、0.25、0.25):


第二句话:or something else that is equal,这句话是讲,跟得到这个结果相同的概率的事件,在这个案例中,就是说TT的概率与HH的概率是相同的,如下所示:

第三部分:or rarer,这个意思是说,出现某个更小概率的事件,由于在这个案例中,没有其它的事件,因此这一部分就是0
随后将这三部分相加得P值,即0.5:

也就是说,p值是得到该事件的概率,以及与出现相同概率事件的概率,比该事件的概率还要小的事件的概率之和

连续变量的P值

该变量的值是连续的,如身高,可以是175.2,174.3,也可以是174.456,它们带有小数点。对于这类数据,我们可以用密度(density)来替代它们,如下所示:


此时该曲线叫做概率密度曲线,下面的这个数据是1996年巴西女性15岁到49岁之间的身高数据,这个曲线下的面积,即红色部分表示了一个人的身高在这个范围内的概率,为1,如下所示:

其中,142cm到169cm这个范围在曲线下的面积是95%,换句话讲,如果我们每次测量一个人的身高,它们有95%的可能性在142cm到169cm之间,如下所示:

可以推测,大于169cm的范围与曲线所围成的面积是2.5%,这也就是说,如果我们测量一个巴西的女性,它有2.5%的概率身高高于169cm;同时,小于142cm的范围与曲线围成的面积也是2.5%
现在我们要计算某些人身高是142cm的p值,那么它的p值就是低于142cm的概率加上大于169cm的概率,如下图所示:

则该事件的P值结果为0.05

假设检验下的P值

P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率

硬币投掷实验

我们以硬币投掷实验为例进行说明P值含义

在100次硬币投掷实验中,观察到出现90次正面,10次反面(事件Q)。那么这个样本观察结果算极端吗?怎么样的事件才是“极端的”?简单来说,如果一个事件很极端,那么比它本身“更极端”的事件就非常少(比如,“91次正面,9次反面”、“91次反面,9次正面”等情况才比它更极端)

但事件Q只是从一次实验中得出的。我们可以重复做这个实验,比如100次,每次都投掷100次,记录下的正面数X,它构成一个二项分布,X~B(n,p),其中,n=100,p=0.5。根据某个中心极限定理,正态分布是二项分布的极限分布,上面的二项分布可以由均值为np=50,方差为np(1-p)=25的正态分布来近似。我们在这个近似的正态分布的两端来考察所谓“更极端”的事件,那就是正面数大于90或者小于10

在上述近似的正态分布中,P值就等于X>90 或 X<10的概率值(记做,P{X>90 or X<10})。根据对称性,这个概率值等于2*P{X<10}=1.2442E-15

上面我们的确求出了一个非常小的P值,但如何不含糊地确定事件Q就是很“极端”呢? 事先确定的显著性水平α,本身就是一个判定法则。只要P值小于显著性水平α,我们就认为,在认为原假设为真的情况下出现的事件Q,是如此的极端,以至于我们不再相信原假设本身

一句话,我们的判定法则是:P值小于显著性水平α,拒绝原假设

螃蟹体温实验

用一个双侧的单样本T检验做例子。假设我们想知道,螃蟹的平均温度,跟空气的温度(24.3)有没有统计差别(α=0.05)。事先确定的假设检验的形式表达如下:

零假设(H0):   μ=24.3°C

备择假设(Ha):  μ≠24.3°C

以下是25只螃蟹在温度为24.3°C下的体温(单位:°C):

25.8    24.6    26.1    22.9    25.1
27.3    24      24.5    23.9    26.2
24.3    24.6    23.3    25.5    28.1
24.8    23.5    26.3    25.4    25.5
23.9    27      24.8    22.9    25.4

一些基本的算术结果:

样本均值:X¯=25.3

样本量:n=25

样本方差:s^2=1.8

样本均值的标准误差:s(X¯)=s2/n−−−−√=0.27

这里T检验的思路如下:

我们先假设H0为真,即认为螃蟹的平均温度跟空气温度没有差异(P), μ=24.3°C。有一个极端事件Q,如果原假设H0成立,Q就不成立(if H0 then probably NOT Q);但如果在原假设为真的情况下,出现了这么一个Q,那我们就有把握拒绝原假设

样本均值X¯是总体均值μ的最好的估计,在本例中,X¯=25.03。这个样本均值只是一个估计值。它只是从总体的一个随机样本中得到的(样本是上述25只螃蟹)。我们不知道这次实验结果是不是“极端”事件,而判断一个事件是不是极端事件,根据上面的讨论,我们可以重复做上述实验,比如100次,每次都抓25只螃蟹,都在空气温度24.3的状态下测量其体温,然后也各自求出一个样本均值来。我们容易得知,这种实验出来的样本均值,辅以适当的数学形式,就服从一个自由度为24=25-1的t分布,即(X¯−μ)/s(X¯)∼t(24)。样本均值X¯=25.03,在这个自由度为24的t分布下,有一个对应的t值,t=25.03-24.3/0.27=2.704。现在我们可以在整个分布里考察这个t值。在这个自由度为24的t分布里,我们看 t=2.704是不是一个“极端”事件Q。根据对称性,比Q更极端的是那些大于2.704或者小于-2.704的点


从上图可以看到,在这个t分布里,比t=2.704更“极端”的点占整个分布的0.0124。这个0.0124就是我们要求的P值。这个P值小于我们事先选定的显著性水平α=0.05,因此我们可以拒绝原假设,认为这批螃蟹的平均体温不等于空气温度。




以上就是两篇文章的关于P值内容,有兴趣的小伙伴可以去看看原文,帮助大家对P值有一个更深的认知

另外,在搜集数据之前,我们把想证明的结论写成备择假设,把想拒绝的结论写成原假设。之所以写成这个形式,因为从上面不厌其烦的讨论中得知,这是方便逻辑/统计推断的形式:当我们难以拒绝原假设时,只能得到结论,原假设也许是真的,现在还不能拒绝它;而当我们能够拒绝原假设时,结论是:它就很有把握是不真的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,451评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,172评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,782评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,709评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,733评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,578评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,320评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,241评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,686评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,878评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,992评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,715评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,336评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,912评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,040评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,173评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,947评论 2 355

推荐阅读更多精彩内容