0 导语
猪年春节跨年黄金句型首推:啥是XX?
这是个疑问句,可称之为黄金疑问句型。
春节前,一个老爷爷为揭秘“啥是佩奇?”的温情视频,火了一把。
春节后,一个“博士后”演员说出了一个疑问句:“啥是知网?”一直火了一个多月。
被质疑后还有句反问:“我说我不知道1+1=2是不是也有人信?”
又诞生了一个黄金反问句型:我说我不知道XXXX是不是也有人信?
事后,我研究了一下当时那个发出黄金一问的视频,
可以确定的是,他说出那个疑问句的时候一定知道"啥是蜘蛛网?",
但有极大可能是真不知道“啥是知网”。
子曰:知之为之,不知为不知。
我们要谨记先贤的教导,万万不能不知装不知。
欺天,欺地,欺人,欺己。
再一个就是,最近有个热点事件:
几天前,三位统计学家在Nature上发布一封公开信,名为《科学家们奋起反对统计学意义》(Scientists rise up against statistical significance),以号召科学家废弃“统计学意义”,有超过800名研究人员已然签署。
接触过统计学的同学们估计第一时间就会想到p值,0.05,0.01等关键词。
难道我们算了这么多年的p值就这么Game Over了么?
为蹭《800科学壮士围攻统计学事件》尘埃乍起之热度,
群体多样性指标系列开撸过程中,
我打算插播一个与统计学意义密切相关的概念。
于是乎,那天夜里,我借用猪年春节跨年黄金句型,突发一问:“啥是P值?”
……
1 啥是p值
p值是个统计学概念,用以衡量统计学意义。
一句话解释就是:原假设为真时,样本出现的概率。
记住这句话,甭管是否真正理解,别做过多解释。
有人追问,即报以神秘一笑,最多再说俩字“自悟”,用这唬人足够了。
以上为某一类教客常用招数。
当然啦,这句话后面我们还要用到多次。
要了解啥是p值,我们需要具体掰扯一下,先出个判断题:
--------------------------------------------------判断题-------------------------------------------
已知厚壁菌门与拟杆菌门的比值是肠道微生物的一个重要指标,假设在人群中该指标服从正态分布。某宏基因组数据库人群中该指标的平均值为8.60 ,暂且把数据库的数据看作总体。
某博士在e源基因做项目,搜集了200个福州18岁学生的肠道微生物样本进行测序分析。拿到分析数据后,博士先计算了每个人厚壁菌和拟杆菌的比值,然后又计算了这些比值的平均值为8.48,标准差为0.85。
问:福州18岁的学生两种菌门的比值是否显著低于数据库人群?
------------------------------------------------------------------------------------------------------
分析:
数据库均值。200个抽样个体得到样本均值
,样本标准差
,总体均值未知,题目要求判断
是否成立。
解题思路:
先假设两个总体平均数相等
,再看从这样的总体得到200个均值为
且标准差为
的样本的可能性(p)有多大?
如果,我们认为
和
差别不大,假设很可能成立。
如果,则说明假设成立的条件下,得到200个这样样本的事件是一个小概率事件,小概率事件在一次实验中是不应该发生的,但不该发生的发生了,一个合理的解释就是这不是小概率事件,这个概率p算的不对,不对的原因在于最开始的假设
是错的,即
不成立,我们应该认为
。
得出结论:福州18岁的学生两种菌门的比值显著低于数据库人群。
那么p值是怎么算出来的呢?
两种方式:手动计算和用软件。
------------------------------------------------手动计算-------------------------------------------
1) 建立假设。
原假设:
;
备择假设:
。
2)计算统计量。=
=
这里解释下t统计量的意义。即样本均值和总体均值的差距;
是
的简化形式,
用于度量随机变量和均值之间的偏离程度,除以样本数
是将这个偏离程度进行标准化,方差的均值是属于二次方量纲,所以要求一个平方根,其意义就是根据样本信息估算出的样本与均值的一般差距;最后,用样本和总体的均值的差距除以根据样本信息估算出的样本与均值的差距,就是t统计量。
t统计量服从t分布,所以我们接下来要把这个统计量放到t分布中去,看看我们计算的t统计量会落在怎样的区域内,是原假设的拒绝区域呢,还是接受区域?
一般设置拒绝区域和接受区域的分界点为,所以我们要查t分布看t落在哪。
3)查表求t单侧分位数。
由于题目问的是“是否显著低于”,并不是问“是否有显著差异”。
所以我们只看是否低于即可,即求左侧分位数。
自由度,
为样本数。
的t单侧分位数为
的t单侧分位数为
由此可知。
即原假设为真的情况下,数据库总体中得到出现当前样本的概率p值介于0.05和0.01之间,是个小概率事件。
我好不容易假设了一下,还遇到了小概率事件,怎么办?这种情况只能把锅甩给原假设了。
这时候只能说原假设错了,我们要拒绝原假设,接受备择假设
,即
。
因此这道题的答案是:必须是啊![2]
------------------------------------------------------------------------------------------------------
有点费脑是吧?
那我们用第二种计算方式,来秀一波操作,用R语言解答这道题。
具体R语言安装和输入等操作方法可自行Google,代码如下:
------------------------------------------------用R语言计算-----------------------------------
>X<-8.48 #样本平均数
>mu<-8.60 #总体平均数
>S<-0.85 #样本方差
>n<-200 #样本数
>df=n-1
>t<- (X-mu) / (S/sqrt(n)) #用公式赋值
>pt(t,df=df) #根据t分布概率密度函数计算p value。
[1] 0.02361925 #p值等于0.02361925
------------------------------------------------------------------------------------------------------
有点费脑是吧?那我们来轻松一下。
看一段武打片过过瘾。
做个笔记。
陈真:竞技的目标是讲究击倒对方。
船越先生:你完全错了,年轻人我告诉你,要击倒对方最好的方法就是用手枪,练武的目标,是要将人的体能推到最高的极限,如果你想达到这种境界,就必须要了解宇宙苍生。好了我走了。
精彩的武打片播放完毕,什么都可以不记住,但请记住船越说的最后一句话。
注意,当然不是那句“好了我走了。”
而是这句,“要击倒对方最好的方法就是用手枪,练武的目标,是要将人的体能推到最高的极限,如果你想达到这种境界,就必须要了解宇宙苍生。”
刚才的判断题说到哪了?
哦,对,刚用了两种方法算完p值。
引用船越文夫最后那句话的思想:
算p值最好的方法就是用统计软件,费这么大劲手动解题的目标,是要将自己对统计学的理解逐渐推到上限,如果你想追求这样的上限,就必须要了解宇宙苍生,了解老子说的“道生一,一生二,二生三,三生万物”之理,如何从抛硬币开始,衍生出二项分布、正态分布,假设检验,方差分析,回归分析、甚至机器学习算法等等。
2 p值与统计学四大思想
我曾听某位高手说过,任何学科上升到一定高度后,最后都是要讲政治,谈思想的。
当然,我还没达到那个高度,这里我们只能讨论一下入门级的p值相关思想。
中文中,有个黄金词组,叫四大XX。
比如,四大发明,四大高原,四大家族,……
统计学也存在有四大思想,即抽样思想,反证思想,小概率思想,误差思想。
p值,或多或少跟他们都有些关系。
抽样思想
可以这么说,几乎所有的研究都是抽样。
分两种情况:
一种是总体有限的,
我希望做药物研究测试人类总体,总体是全球几十亿人。
经费就这么点,还有些人未必愿意让我试,
我绝不可能把所有人都试了,因此只能抽样。
还有一种是总体无限的,
比如掷骰子,虽说就六个点,但是总体是无穷大的。
我掷一次,就是一个样本,掷一万次就是一万个样本,但这永远是样本,而不是总体。
还见上面的判断题,福州的200个18岁学生样本就是抽样。
总体呢?大了去了,即所有福州,全国或者全世界18岁学生肠道微生物样本。
只要有足够的经费燃烧或者让总体都同意提供样本,尝试一下,相信测序公司和全体生物信息分析同仁也一定是大力支持的。
反证思想
多数研究都想在两组或者多组数据中找到显著差异。
做假设检验如果原假设被接受,大家可能或多或少会有些挫败感。
一个基本套路就是:
首先假定原假设正确。
然后想方设法证明原假设不正确,
t检验不行,换方差分析,不行再换秩和检验,不行再换…
直到得到p<0.05,推理出原假设不正确,
那就是备择假设OK了,这就是反证思想。
依然请参照上面的那道判断题。
小概率思想
小概率事件在实际中一次实验中不可能发生,可它发生了,你会觉得正常么?
因此,不正常就得追本溯源,抛弃原假设。
这里还有个关键问题,是怎么界定小概率,
以0.05为界?
很多事就不好说了。
p=0.049或者0.051算怎么回事呢?
是佛祖保佑运气好呢?
还是说撒旦附体倒霉催的?
原假设这个时候向你表白,你只能存疑,其实都不能武断地去接受还是拒绝原假设。
误差控制思想
且不说要不要得到一个合乎研究者意愿的p值。
我们做科学研究最政治正确的说法就是:追求真理。
想得到一个最接近真实的p值,
实验设计、实验过程和统计分析三者的合理性缺一不可。
这三者也必须按上述顺序排优先级逐一满足。
《水浒传》[3] 里面王干娘就提供了一套标准的项目设计思路。
话说王干娘最近接了个项目,即帮助西门庆设计追求潘金莲的方案。
王干娘率先向西门庆提出了实验材料需求:1)长得帅,2)经费足,3)有时间,项目周期保证,4)心思细腻,5)……。
拿到了实验材料,就开始进行实验设计了。
别看王干娘其人虽其貌不扬,但她是个实验设计高手。
接下来方法部分,王干娘很快给西门庆提供了一套完美的十步操作方案。
第一步,如何如何,第二步,如何如何……如果有一步出问题,此事便休了。
具体这里不提了,可参见《水浒传》,总之最终西门庆靠王干娘的这套方案取得了阶段性的成功。
虽说这个项目在原著中并不是什么好勾当,但是这个项目方案设计的非常科学,一环扣一环,倘若有一环出问题,后面的环节就没必要继续进行下去了。
因此,做项目也一样,我们首先必须保证实验设计合理,逻辑清晰,一环扣一环,倘若某一环设计出问题,极有可能万事皆休。
实验设计很考验研究者的功力,对背景知识、经验和统计学水平都有一定要求。
比如你想做某物种的全基因组关联分析(GWAS),首先要自问一下,我了解这个物种么?杂合性、基因组大小这些指标都是要评估的。另外,统计学是有方法可以告诉你项目成功的概率的,你担心自己的GWAS项目会失败,可以实现估算个统计功效,看看成功的可能性有多大?
我曾经遇到了太多实验设计大坑,轻则不断添加样本实验重新分析把坑填满,搜集样本严重耗时,所耗时间的单位很可能是年,同时难以保证样本的同批次;重则就是竹篮打水填坑,烂尾。
试问有多少文章因为设计问题,原本打算发《Nature》,结果屈尊《Plos One》,或者投《Plos One》被嫌弃。
然后就是实验过程,这个有太多protocols,严格操作,不多说。
正所谓巧妇难为无米之炊,只有得到了可靠的数据,最后的统计分析才能水到渠成,研究质量也自然不在话下。
然而就算实验设计和实验过程都完美,也无法完全避免的误差。
统计分析经常需要分辨样本之间,到底是抽样误差还是总体真差,目前还是得靠算个p值来衡量解决。
03 小结
所以呢,尽管发生了800+的科学家们奋起反对统计学意义这样的群体性事件,但我坚持认为P值肯定不能废,除非你找到了更好的替代它的方法。
这就好比史书上[4,5]说,刘邦是刘大妈和一条龙生的,你找不到刘大爷的DNA,那条龙的DNA和刘邦的DNA做亲子鉴定,也找不到其他史料,那就姑且相信吧!
这就像我说:我是炎黄子孙!
你会反驳我么?就算我是蚩尤的后代,你找不到证据反驳,姑且相信吧。
所以有p,姑且先用吧,不过滥用是一定要监督的。
写完此文,我也想说一句:“我说我不知道p值是不是也有人信?”
不是装X,这句跟“博士后”演员那句“我说我不知道1+1=2是不是也有人信?”有着本质的区别。
“博士后”演员那句是反问,相当于“难道我说我不知道1+1=2也有人信吗?”
我这句是纯正的设问句,还有下半句自己的回答:
“必须有人信啊!”
据我知道的统计假设检验就有20+种之多,而且计算方法各有不同。
所以,经常……用到的时候,还是需要去现查资料。
备注:此文于2019年4月2日首发于微信公众号e媛微生态,由于当时只是在简书上打草稿,故此文章中很多内容,比如部分图片和视频并未放入本文中,给各位造成的不便,请见谅。
参考文献
[1] https://www.nature.com/articles/d41586-019-00857-9
[2] 李松岗. 实用生物统计学[M]. 北京:北京大学出版社,2002. 67-75
[3] 施耐庵. 水浒传[M].
[4] 兰陵笑笑生. 金瓶梅[M]
[5] 司马迁. 史记·高祖本纪[M].
[6] 班固. 汉书·高祖本纪一[M].