从统计学的角度理解RNA-seq

这次是分享李婧翌团队的一篇综述《Modeling and analysis of RNA-seq data: a review from a statistical perspective》,从统计学的角度理解RNA-seq的分析

分析的方向

目前正对RNA-seq的数据主流的有4个方向(当然事实上不止这些,可以辛苦读者慢慢收集整理,欢迎与我讨论)

  1. 基因sample-level,这里主要是看生物学处理间,基因表达模式的相似性,通常用Pearson或Spearman相关系数进行表示
  2. Gene-level,这里涉及到基因表达的定量
  3. Transcript-level,这里涉及到对不同转录本的定量
  4. Exon-level,这里涉及到差异可变剪切的检测

接下来作者主要围绕这四块内容进行在统计学上的理解

1). Sample-level

基于sample的分析,目的是检测不同sample的表达模式的相似性,通常可以利用Pearson and Spearman correlation coefficients来衡量。如果是利用全部基因来计算相关系数,管家基因的存在势必会 "夸大" 相关系数,因此比较好的方法是利用相关基因而不是全部的基因来计算,而R包TROM就是用来解决这类问题的,TROM通过计算TROM分数来选择出相关基因后,进行sample间相关系数的计算

除了计算相关系数,我们可以利用非线性的方法t-SNE或UMAP来进行降维聚类,以观测样本间的相似性

2). Gene-level

Gene层面的研究主要是对基因进行定量,并且进行差异表达分析,差异表达分析基本统计学模型的假设为,某个基因的count(表达量)在各个sample中的分布服从泊松分布或者负二项分布(如果是log以后的值一般认为服从正态分布):

其中:

  1. Yk,ij 代表的是 condition k 中第 j 个sample gene i 的表达量
  2. Skj 代表 condition k 中第 j 个sample 的size factor
  3. θki 代表 condition k 中 gene i 的真实表达水平(可理解为在 condition k 的条件下, gene i 在各个 sample 中的平均表达水平)
  4. Φi 表示 gene i 的dispersion

其基本假设为:



image.png

上图表示某个基因A在所有sample中表达量的分布(但由于生物学的sample较少,所以统计学家往往直接利用负二项分布去拟合),均值为Skjθki
经过统计学检验两个分布的差异,显然该基因在condition 2的表达量要小于condition 1中的,p值的计算可以考虑用置换检验来从两个分布中抽样计算p值

另外一种就是基于的共表达分析:


其中:

  1. Aij 代表gene i 与 gene j 的相关性矩阵
  2. k 代表 gene k
  3. dij = 1 - Tij,用于表征基因之间的相似性距离

2). Transcript-level

一个基因可能有不同的转录本,基于转录本水平的分析主要是对一个基因的不同转录本进行定量

而对转录本定量往往存在一个问题,那就是对于同一个基因来说,一部分转录本的序列有overlap,那么reads在比对回去的时候,很难区分这些reads到底来自哪一个转录本,因此统计学家往往采用EM算法进行转录本的定量

并作出如下定义:


θj 表示 reads 来自于 isoform j 的概率
定义isoform的集合为:{ 1,2,3,.....,J }

Region based:
假设 X={ Xs | s∈S },Xs代表map到region s上总的reads数,假设map到region s上总的reads数服从λs的泊松分布:


这里假设参数λs满足线性关系:


假设如下例子:

一共有三个isoform,这里的 Xs 特指map到外显子上的reads,而该例子中一共有4个外显子,Xs = Xs1 + Xs2 + Xs3 + Xs4
对于每一个转录本来说,如果该转录本缺乏某一个外显子,那么这个外显子上的reads数为0,似然函数:

相应的外显子区域的多项式值为 1(相当于没有贡献),利用极大似然估计的思想,我们的目的是确定似然函数 L() 取得最大值的时候参数 λs 的值,而 λsθj满足线性关系**,即确定 λs 后利用EM算法对 θi 进行分配,原理参见:《用简单的EM算法模型理解RSEM算法》

经过计算后,我们可以得到:例如 θ1=0.37,θ2=0.33,θ3=0.3,相当于一共有100条reads分配到该区域(该基因),isoform 1 表达37条,isoform 2 表达33条,isoform 3 表达30条

Reads based:
基本模型如下:


这种模型的基本思想是计算 reads i 来自于 isoform j 的概率,根据条件概率公式,

表征同时选中 reads i 和 isoform j 的概率,也就是定量结果

Regression-based:



回归的方法和 Region based 的方法理解相似,只不过 Region based 利用极大似然的方法估计参数;而 Regression-based 基于最小二乘的思想求解参数

4). Exon-level

这一块主要分析的是可变剪切事件,那么可变剪切事件的PSI定义为:


其中:

  1. CI denotes the number of reads supporting the inclusion isoform
  2. CE denotes the number of reads supporting the exclusion isoform
  3. LI and LE denote the lengths or the adjusted lengths

而可变剪切的统计学模型是:


例如 inclusion 事件的reads的分布满足于总reads数为 n = CI + CE,reads属于 inclusion 的概率为 ψ(PSI)的二项分布(均值μ = n×p),而判断差异可变剪切事件为:
构建不同condition的二项分布,对于某个基于来说


经过统计学检验两个分布是有差异的(CIk的分布是有差异的),因而判断为差异可变剪切事件


经过统计学检验两个分布是没有差异的(CIk的分布是没有差异的),因而判断为非差异可变剪切事件

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容