置换检验（permutation test）：利用样本数据的全（或随机）排列，进行统计推断的方法。特别适用于总体分布未知的小样本资料。

结合GSEA，解释permutation test：

首先，有两种phenotype（treat和control）的RNA-seq的结果，即每个基因在这两种phenotype中的表达量。这两种phenotype可看做是置换检验中的A、B组数据。

零假设：GO过程（如脂肪代谢）的基因在这两组数据上的表达量没有差异。

步骤：1）从RNA-seq结果中抽取出这些GO过程的基因的表达值（比如，GO过程中有100个基因落入RNA-seq的结果中）。这样得到A、B两组数据，A组有100个基因的表达值，B组有100个基因的表达值。

2）将A、B的数据混在一起，打乱顺序。随机抽取100个数据作为A组的数据，剩余的作为B组的数据。共随机抽取1000次。统计量设为：A组的平均值-B组的平均值。

3）根据2），得到1000个统计量的值。这些值代表了抽样总体情况。画出这1000个统计值的分布图。如下：

4）再看看真实的RNA-seq数据中A组和B组的均值差（比如：14）。看看落入分布图的哪个区域。

5）假如真实的均值差落入尾部，则说明：在零假设条件下，这个数出现的概率很低。只有9个值大于14，计算概率：P-value=9/1000=0.009.

6）P-value值<0.01，差异显著。说明：GO过程（如脂肪代谢）的基因在这两组数据上的表达量是有差异的。

图1

直观来讲，我想比较某个GO过程在A、B组中是否有差异。

用什么数据衡量？用GO过程基因集在A、B两组的表达值。

怎么衡量？看每个基因在A、B组上表达值是否有差异？

怎么衡量差异？看A组的基因表达均值，与B组的基因表达均值之差，看均值之差的大小？如果差大，说明A、B组有差异；如果差小，说明A、B组没有差异。（此时，A\B组的均值之差记为真实的均值差值。）

怎么衡量均值差的大小呢，怎么样是大，怎么样是小？用分布吧。用什么分布？正态分布？不知道参数。（这一步我也不太理解）

用检验吧。将A、B两组数据打乱，然后分成两组，看看这两组的均值之差。执行1000次前面的步骤，就得到1000个均值之差。看这1000个值的分布如何。

看分布不是我的目的，我的目的是：A、B两组的真实的均值差值，说明A、B两组有差异呢，还是没有差异。

将真实的均值之差放到分布中看。如果在分布图的尾端，说明真实的均值之差不在大多数情况中。如何衡量呢？用分布曲线下的面积来衡量，即P-value。如果P-value小，说明真实的均值之差在分布图中占的比例小。

总结：其实，做1000次抽样，是为了构造上面的分布图，有了分布图，才能确定我的真实值处在分布图中的什么位置。P-value是衡量我的真实值在分布图中的概率。

再衍生出统计量的概念，即上面提到的A、B两组的均值。

再联想到，点突变频率的P-value如何理解？Mutect的算法如何理解？

后续再补吧！

结合GSEA说明：

随机抽取次数（比如上文的1000），即是GSEA中提到的number of permutation。次数越多，得到的统计量的值越多，抽样分布的值越多，抽样分布的分布图更接近真实值。看真实数据在此抽样分布图上的分布时，就更准确。

2021-06-17