上一篇我简单整理了t-test的用法和注意事项 (我们主要讲两个独立随机样本的t-test)。我们再回顾一下,t-test是参数统计检验方法,其应用的假设前提是检测变量的值服从同方差的正太分布。然而,在生物信息学分析中经常碰到不满足此假设的情况,例如比较两个基因在两组单细胞中的表达水平。此时常用的非参数检验方法是Wilcoxon rank sum test或者叫Mann Whitney U test.</p>
两个独立样本的t-test是检验两个样本的均值是否相等。而相对的,两个独立样本的wilcoxon test 则是检验两个样本的中位数,或者说两个样本的分布是否有偏移。因此,wilcoxon test在计算统计量时是先将两个样本混到一起,然后对混合后的list进行从小到大排序,根据排序把两个样本的值分别转换成排序序数,最后比较两个样本的序数的大小。如果序数大的富集在其中一个样本,表明该样本相对另一个样本的值要更大,相反亦然。
这里我就不具体讲怎么计算统计量的了,读者可参考下面链接【1】,里面有详细介绍如何计算统计量的步骤;链接【2】则有介绍wilcoxon test的p值是如何计算的。
【1】(http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704_Nonparametric/BS704_Nonparametric4.html)
【2】(https://data.library.virginia.edu/the-wilcoxon-rank-sum-test/)
R语言里怎么做wilcoxon test:
wilcox.test(vector_A,vector_B, alternative = "two.sided") # alternative also could be "greater" or "less"
# 或者输入数据框
wilcox.test(gene_expression ~ tissue_group, alternative = "two.sided")
# tissue_group 是名义变量,有两个水平,例如组织A和B,即比较A组织和B组织的基因表达水平
wilcox.test的输出结果
Wilcoxon rank sum test
data: A and B
W = 13, p-value = 0.04988
alternative hypothesis: true location shift is not equal to 0
总结
wilcoxon test在分析中非常常用,我们经常能在读文章时发现到。通常当我们要比较两个样本时,首先考虑是否满足参数检验方法t-test的假设条件(即正太分布或者样本总量很大(>30),方差相同);若不满足,则可使用wilcoxon test代替。