2021-06-17

置换检验(permutation test):利用样本数据的全(或随机)排列,进行统计推断的方法。特别适用于总体分布未知的小样本资料。

结合GSEA,解释permutation test:

首先,有两种phenotype(treat和control)的RNA-seq的结果,即每个基因在这两种phenotype中的表达量。这两种phenotype可看做是置换检验中的A、B组数据。

零假设:GO过程(如脂肪代谢)的基因在这两组数据上的表达量没有差异。

步骤:1)从RNA-seq结果中抽取出这些GO过程的基因的表达值(比如,GO过程中有100个基因落入RNA-seq的结果中)。这样得到A、B两组数据,A组有100个基因的表达值,B组有100个基因的表达值。

2)将A、B的数据混在一起,打乱顺序。随机抽取100个数据作为A组的数据,剩余的作为B组的数据。共随机抽取1000次。统计量设为:A组的平均值-B组的平均值。

3)根据2),得到1000个统计量的值。这些值代表了抽样总体情况。画出这1000个统计值的分布图。如下:

4)再看看真实的RNA-seq数据中A组和B组的均值差(比如:14)。看看落入分布图的哪个区域。

5)假如真实的均值差落入尾部,则说明:在零假设条件下,这个数出现的概率很低。只有9个值大于14,计算概率:P-value=9/1000=0.009.

6)P-value值<0.01,差异显著。说明:GO过程(如脂肪代谢)的基因在这两组数据上的表达量是有差异的。

图1

直观来讲,我想比较某个GO过程在A、B组中是否有差异。

用什么数据衡量?用GO过程基因集在A、B两组的表达值。

怎么衡量?看每个基因在A、B组上表达值是否有差异?

怎么衡量差异?看A组的基因表达均值,与B组的基因表达均值之差,看均值之差的大小?如果差大,说明A、B组有差异;如果差小,说明A、B组没有差异。(此时,A\B组的均值之差记为真实的均值差值。)

怎么衡量均值差的大小呢,怎么样是大,怎么样是小?用分布吧。用什么分布?正态分布?不知道参数。(这一步我也不太理解)

用检验吧。将A、B两组数据打乱,然后分成两组,看看这两组的均值之差。执行1000次前面的步骤,就得到1000个均值之差。看这1000个值的分布如何。

看分布不是我的目的,我的目的是:A、B两组的真实的均值差值,说明A、B两组有差异呢,还是没有差异。

将真实的均值之差放到分布中看。如果在分布图的尾端,说明真实的均值之差不在大多数情况中。如何衡量呢?用分布曲线下的面积来衡量,即P-value。如果P-value小,说明真实的均值之差在分布图中占的比例小。

总结:其实,做1000次抽样,是为了构造上面的分布图,有了分布图,才能确定我的真实值处在分布图中的什么位置。P-value是衡量我的真实值在分布图中的概率。

再衍生出统计量的概念,即上面提到的A、B两组的均值。

再联想到,点突变频率的P-value如何理解?Mutect的算法如何理解?

后续再补吧!

结合GSEA说明:

随机抽取次数(比如上文的1000),即是GSEA中提到的number of permutation。次数越多,得到的统计量的值越多,抽样分布的值越多,抽样分布的分布图更接近真实值。看真实数据在此抽样分布图上的分布时,就更准确。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,192评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,858评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,517评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,148评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,162评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,905评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,537评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,439评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,956评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,083评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,218评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,899评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,565评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,093评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,201评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,539评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,215评论 2 358

推荐阅读更多精彩内容

  • 显著性检验可以告诉我们某个观测值是否有效,,例如检测两组样本均值差异的假设检验可以告诉我们这两组样本的均值是否相等...
    裁尘的人儿阅读 1,099评论 0 0
  • 我的宠物 每个人的爱好都不一样,有的人喜欢体育、看电影、逛街,对了还有宠物,哈哈,我的爱好就是喜欢宠物而且最喜欢的...
    乐观自信坚持阅读 427评论 1 4
  • 今天青石的票圈出镜率最高的,莫过于张艺谋的新片终于定档了。 一张满溢着水墨风的海报一次次的出现在票圈里,也就是老谋...
    青石电影阅读 10,344评论 1 2
  • 今天主要学习了flex布局,学习笔记如下: 1.指定flex布局: display:flex(任意容器)...
    riku_lu阅读 3,146评论 2 3
  • 插打法原为少林六合门打法,一代宗师万籁声将少林六合门、罗汉门、自然门等内外家之所长融为一家,自然门本无固定招式,然...
    梁山的洛奇阅读 4,696评论 1 2