【哈佛大学:计算生物学 & 生物信息学】学习记录(五)

为什么没有(四)?
(四)主要说的就是SAM格式,网上一搜就有,就没必要了
(五)就草草地记录了Chapter 4.1: RNA-Seq Applications - Chapter 5.2 Differential RNA-Seq

RNA-Seq的应用

生物体内的转录&翻译过程

RNA-Seq建库流程

1、提取所有的mRNA或所有的RNA
2、去除DNA(在RNA建库流程中,DNA被认为是污染物)
可选过程:去除rRNA(选择mRNA)
3、将RNA片段打断(二代测序读长问题)
4、将RNA逆转录为cDNA
可选过程:链特异性选择
5、连接adapter & PCR扩增
6、选择合适长度的cDNA
7、单端测序 或 双端测序

参考文献链接:
https://www.nature.com/articles/nrg3068

RNA-Seq的应用

image.png

RNA-Seq实验设计

注意事项:已经降解或部分降解的RNA不可用于建库

原因:当提取的RNA被作为archival tissue储存了很长时间,同时需要注意的是短片段RNA,其3'端更加稳定。
检查RNA质量的方式:DV200指标,指片段大于200 bp的RNA的占比。
【标注】推荐DV200 > 30%


image.png

实验设计目的

RNA-Seq可以进行测序的几种RNA类型:
1、Ribo-minus:去除富集的rRNA和tRNA的RNA文库
2、使用PolyA-RNA(成熟的mRNA)进行建库
3、Strand specific/链特异性测序
【标注】一般用于挖掘novel LncRNA

测序价钱问题:一个sample 200$的情况
作为项目负责人,需要考虑的几个问题:

  1. SE or PE: PE getting more popular
  2. Depth: 20-50M for differential expression, deeper for transcript assembly or splicing.(20 million对于novel转录本和可变剪接的发现,并没有50 million的结果好)
  3. Read length: longer for transcript assembly, splicing, or mutation calls

4、评估biological variation

  • technical replicates/技术重复:使用相同的RNA,对其测定多次
    【标注】MicroArray常用方法
  • biological replicates/生物学重复:生物样本的重复
    e.g. 同一株树,取3批叶片样本;患同一种癌症的人(群体)的细胞样品
    【问】多少重复才足够?
image.png

RNA-Seq中的序列比对

由于在生成mRNA过程中,存在可变剪接,因此BWA等DNA序列比对软件不适用于RNA比对。
TopHat等RNA-Seq比对软件的算法,可简单概述为:

先构建参考序列的索引,将reads比对到参考基因组的exon上,同时使用不同的junction片段构建新的数据库,再将原始数据中不能比对到exon上的reads比对到junction上。

图示如下,以09年发表的TopHat作为例子:


image.png

比对生成的文件还是SAM/BAM格式,但是single-end和pair-end的数据存在一定差别:

  • 第一列:read id
  • 第二列:二进制标识符(如果是PE,则为奇数)
  • 第三&四列:染色体编号 & 比对到染色体上的起始位置
  • 第六列:cigar标识符,用于表示比对的具体情况
  • 可选标识(e.g. XS,使用HISAT时可选,用于标识该序列来自正链 or 负链)

【例】


image.png

RNA-Seq:比对后的QC

RNA-Seq可能存在的问题:前几个碱基的测序质量不佳。解决方案就是使用Trimmomatic等软件将reads的前几个碱基剪切掉。


image.png

上述问题的原因,在这篇文献中有报道:https://academic.oup.com/nar/article/38/12/e131/2409775?login=true

image.png

RNA-Seq QC也可以用于查看数据的一些信息,比如插入片段长度、reads主要比对到什么区域、TIN(transcript integrity number)、medTIN(median transcript integrity number)等。如下:

image.png

可以在这个网站查看:http://rseqc.sourceforge.net/
看这部分的时候感觉有点懵啊,不是一般都先QC再比对吗?

RPKM, FPKM, TPM

RPKM,全称“Reads Per Kilobase Million”,用于single end RNA-Seq。
计算公式:\frac{Total \quad reads}{1M * gene length}
FPKM,全称“Fragments Per Kilobase Million”,用于paired-end RNA-Seq
计算公式:\frac{RPKM}{2}
TPM,全称“Transcripts Per Million”,现在最常用的RNA-Seq标准化方法。
我觉得看看这两篇文章差不多就ok了~

  • 为什么都说RPKM和FPKM错了
  • 浅谈RPKM, FPKM, RPM, TPM的区别

RSEM vs Salmon

(1)RSEM使用

输入数据:FASTQ or BAM
输出:转录本水平的表达量(e.g. read count, TPM, FPKM),该表达量计算结果基于转录组有效长度(effective transcript length),即exon的长度

【标注】effective length
计算公式:\overset{-}{l_{i}} = l_{i} - μ + 1
l_{i}为转录本长度,μ为插入片段平均长度
对于一条转录本,靠近5'端和3'端的部分较难被测序,因此若将此部分用于定量,会造成结果不准确。

image.png

同时,还需要考虑到的因素是一个gene可以有多个isoform,如下图:
【标注】isoform,为exon组合得到的mRNA


image.png

下图展示了3种不同的组织中,不同isoform的表达,同时根据reads count来估计每一种isoform在对应组织中的likelihood。


image.png

reads count表达量,如下表:
但是由于isoform3和isoform1和2,存在很多的重叠部分,因此上述分析对isoform3 likehood的估计是不准确的。


image.png

不通过比对也能够定量的方法 —— Pseudoalignment

image.png

RNA-Seq Read Distribution

(1)microarray

在芯片时代,RNA-Seq测序的reads分布,一般被认为是正态分布。


image.png

一般gene,在多个样品中的表达量分布,符合下图第三幅图:


image.png

(2)RNA-Seq

RNA-Seq测序得到的reads分布,一般符合泊松分布。

e.g. 泊松分布


image.png

RNA-Seq对应的表达量 —— 负二项分布

表达量越高的gene,其对应的表达量方差越大,反之亦然。

image.png

Differential Gene Expression

当获得的测序数据,不符合normal distribution(正态分布)时,可以对数据进行转换(e.g. log-transformation)

这边设计一个非常重要的概念,实际上就是针对什么类型(属于什么分布)的数据,使用什么检验方法

图示:

image.png

(1)microarray的标准化方式

算法:limma


image.png

【标注】一般使用t检验或t检验的变形对gene expression进行分析
limma的输入数据
(1)reads count matrix
(2)design matrix(sample属于何种实验条件)
(3)contrast matrix(对哪几种条件进行比较)
【分析标注】采用log-normal对原始数据进行转换,导致数据变泛了,对某些条件或某些gene的检测灵敏度不高了。

(2)基于负二项分布的标准化方法

负二项分布能够很好地捕捉到测序过程中的一些bias,对真实数据有一个更好的体现。

(3)DESeq2:Modeling overdispersion

RNA-Seq一般都只有2~3个rep,但是如果想要对真实的基因表达量的方差有一个体现,上述重复数肯定是不够的。
一般情况下,对基因表达量的mean和variance进行估计,估计出的方差是大于真实值的,如下图蓝线和黑线的区别:

image.png

image.png

差异表达基因的可视化

(1)火山图

image.png

(2)MA图

image.png

M:代表两种实验条件下的log ratio和log fold change
A:基因表达量的均值

后话

虽然跑过转录组,但是实际上我对其中的原理只能说是一知半解,还需要多实践。
课程得学,笔记也得做,实践也得跟上。
但是觉得笔记还是不够硬核,或许应该给自己看看就好。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容