说起P值,我们首先需要知道:
一. 什么检验方法能得到P值?
各种检验方法如:方差分析、卡方分布、t检验以及Z检验等
二. 检验方法是用来干什么的?
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
三. 检验方法都有哪些:
方差分析、卡方检验以及t检验,一张图可以表述其具体分类:
四. P值是如何得到的?
一个经典的卡方检验的例子就是:掷硬币(通过掷硬币验证硬币是否均匀)
1. 首先提出问题:
这枚硬币是否均匀?
2. 其次做出假设:
原假设H0:这枚硬币是均匀
备择假设H1:这枚硬币不均匀
3. 进行实验与验证:
我们进行了100次的投掷硬币实验,理论上应该是50次正面和50次反面。其中50则为期望值。
但是经过我们的实验得出:
在100次的投掷硬币实验后,出现了40次正面和60次反面。其中40和60则为观测值。
4. 可列2x2列联表:
5. 用下面公式计算:
最终得到:
X2= 4
6. 对照卡方分布表:
7. 分析:
这个表怎么看呢?
其中两个最关键的量为:P以及n(自由度)
P表示:以0.05处为例,H0假设置信度为95%,即拒绝H0的概率为0.05。
根据以上实验结果有95%的把握认为这枚硬币是均匀。
n表示:Y类型的变量数-1(投掷硬币实验中为1)
8. 卡方分布表是怎么来的呢?
非常复杂。
ps:
卡方检验结果对应X2分布表;
t检验结果对应t分布表;
方差检验结果对应F分布表;
五. 如何形象的理解各种检验?
本质上就是服从正态分布的样本落在正态分布区域内的概率性问题。**
X2分布,t分布,F分布这三个分布都是基于正态分布变形得到的,在实际中用来做假设检验。
发没发现X2,t,F的值的计算公式和正态分布的标准公式非常相似?
六. 生信分析中的基因组、转录组、蛋白组以及代谢组中差异性结果中的P值都是根据什么检验方法得到的?
转录组、蛋白组以及代谢组普遍会用到的一个主流的检验方法就是t检验。
这只是一种广义上的说法,当然针对没有重复样本的数据还存在别的方法。
七. 生信分析差异性结果中的P值就可以衡量差异性结果的最终指标吗?
并不是,生信组学分析中得到P值往往是大规模数据的集合的P值,需要进行事后的多重假设检验。
而假设检验的方法有很多,有严格的也有宽松的。(其中BH法最常用,BF法最严格)
一些补充的见解和认识:
- 假设检验的根本是:比较两组或者多组数组之间的特征,通过两组数或多组数的分布来证明两组或者多组数是否一致。
- 比较两组或者多组数字,一定是比较的两组或者多组数字的总体,而我们只能通过抽样的样本来描述样本的整体。
- 最基本的分布为正态分布,其他的分布总可以变形转换为正态分布,所以在统计研究时首要研究的便是正态分布。
- 正态分布可以由两个值表示那就是两个特征值组成mean(平均数) 和离散值。
- 两组数若符合正态分布,且相同,那么均值与离差相同,反之只要证明均值不同,则说明两组数不同。
参考文章:
- https://www.sohu.com/a/298044185_100103806
- https://www.jianshu.com/p/4c9b49878f3d
- https://blog.csdn.net/weixin_39875181/article/details/78612348
- https://www.jianshu.com/p/807b2c2bfd9b
- https://zhuanlan.zhihu.com/p/334574642
- https://mp.weixin.qq.com/s?__biz=MzI3MTM3OTExNQ==&mid=2247483940&idx=1&sn=be08093540e43b2cbc386fc5a6e2d934&chksm=eac3fde0ddb474f65cdf50e0c14ec408eb796b7d3422f2c215b7fe5b32aa6790e2c281eeb835&scene=21#wechat_redirect
- https://www.jianshu.com/p/2f5d3f630445
- http://events.jianshu.io/p/c1036d39f2b9
- https://www.jianshu.com/p/5f94ae79f298
- https://zhuanlan.zhihu.com/p/133230688
- https://www.jianshu.com/p/c3cffe4a4e84
- https://www.bioinfo-scrounger.com/archives/541/