1. 转录组测序要测什么?
👉mRNA:最常见的转录组测序,建库一般选200-300bp的片段,PE150或125测序
👉microRNA:将microRNA分离出来直接单独测序
👉IncRNA:长链非编码RNA,有正向、反向转录,要进行链特异性建库
【关于链特异性建库:作用就是测序过程保留转录本的方向信息,让我们知道转录本是来自正义链还是反义链。方便后来区分不同的IncRNA类型以及它的定位,可以更准确获得基因结构和表达信息。】
2. mRNA的提取、纯化及质量检测?
👉提取:
- 大多数动植物组织样品,使用Trizol试剂即可;
- 多糖含量丰富的植物,可以用多糖多酚试剂盒;
- 脂肪组织可以用QIAGEN的RNeasy lipidmini kit ;
👉纯化:
- 真核生物纯化mRNA,是利用它的3‘端polyA,采用oligoT磁珠将其富集纯化。
- 但是原核没有polyA,并且大部分是核糖体RNA(rRNA),mRNA只占据了1-5%,因此需要先去除total RNA中的rRNA,需要使用去rRNA试剂盒(Ribo-Zero或KAPA试剂盒),*
- 另外对于要测物种IncRNA的实验,如果有适用的试剂盒就用,否则不适用就会影响下游数据质量。
👉检测是否合格的指标:
- RNA总量、RIN值、OD260/280以及真核28S/18S、原核23S/16S。
- RIN值越高,28S/18S越接近2表示提取的RNA完整性越好。
【RIN值高于6.5可以做建库准备,太低影响准确度。有一些昆虫或者水生动物没有28S条带,因此RIN值不能作为参考,但是18S的前基线平稳即可。】
3. 构建测序文库
👉分离RNA=》将RNA打断成小片段=》将小RNA片段反转录成DNA(DNA更稳定更容易扩增)=》加接头=》PCR扩增 =》质量检查QC
具体:总RNA样本检测合格后,对于真核生物,用带有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段,再以片断后的mRNA为模板,用六碱基随机引物合成cDNA第一链,并加入缓冲液、dNTPs、RNaseH和DNA Polymerase I合成cDNA第二链,经过QIAQuick PCR试剂盒纯化并加EB缓冲液洗脱。洗脱纯化后的双链cDNA再进行末端修复、加碱基A、加测序接头处理,然后经琼脂糖凝胶电泳回收目的大小片段并进行PCR扩增,从而完成整个文库制备工作。
注:
【RNA片段化目的:RNA长达几kb,测序仪器只能测200-300bp长度的短片断。
反转录目的:DNA更稳定更容易扩增。
接头作用:1⃣️ 使测序机器识别片段 2⃣️可同时测多个样品。
PCR扩增:只有加了接头的片段才能被扩增。】
4. 测序
目前二代测序主要采用Illumina平台
5. 分析流程
一般:质控-》比对(alignment or mapping)-》估算表达量(read counting)-》表达量比较(differential expression)。
1)质控(去除接头污染、低质量、N比例较高的reads,得到clean reads)
👉原始数据:Illumina测序仪下机的数据通常为Bcl格式,然后公司使用Bcl2Fastq软件,根据Index序列分割转换成每个样品的Fastq文件,用户拿到的就是fastq格式的原始数据。
👉质控:使用fastqc,查看碱基质量、接头情况、GC含量、序列长度、重复序列等
👉过滤:一般需要去掉低质量碱基或者未识别碱基(N)太多的reads;另外如果测序文库的插入片段太短,比如insert size=50,但采用PE 150测序,read1和read2就会测到接头,所谓的“测通“就是这意思,此时需要去掉接头序列。有时会出现两个接头连在一起的情况,也需要去掉。
2)比对
不同的比对流程👇
上图来自文章A survey of best practices for RNA-seq data analysis, 2016, GB
-
基于参考基因组比对(有参考基因组,想分析新转录本):
因为基因组包含了基因间区、内含子区域,因此比对时选取的比对软件就要具有"跨越式拼接”特性,比如STAR、Hisat2; - 基于参考转录组比对(有参考基因组,分析已知转录本):Bowtie、BWA;
-
无参考基因情况(没有参考基因组,或者有组装质量不好的,需要自己组装转录本):
需要拼接Trinity:利用测序reads从头组装拼接出参考unigene,再将每个样本的reads比对到参考unigene上,计算表达量。
【对于大部分没有参考基因组或者基因组注释不好的物种,无参方法是比较理想的解决途径,但是比有参要消耗更多的内存、运行时间,不适合入门。】
看似简单的比对过程,就是帮150bp的reads找到家,其中可能还要让reads付出点“被分割”的代价。但是, 基因组有多大?人类的是3G,也就是30亿碱基,一个150bp对于整个基因组来说,简直不值一提,要从头一个一个比对吗?姑且这样可以,那么我们有多少reads?一般6G数据,150PE,会有20Mreads(=60亿/150/2),也就是2000万条reads。这该怎么办?怎样保证高效和低错误率?
👉HISAT2是TopHat2的升级版,该软件使用改进的BWT算法(Sirén et al. 2014)将参考基因组转换成index,实现了更快的速度和更少的资源占用。
【先将大的基因组序列打断成许多小片段,然后为了方便接下来寻找这些片段,需要对他们进行构建索引index(目的就是标注每个小片段的位置),再将测序的reads和基因组一样,也是打断成小片段,然后把它的小片段比对到基因组的小片段上,比对上的会给出位置信息。】
【注:index比对的方法也避免由于某个碱基不匹配导致整段reads比对不上的结果】
3)表达量估算
👉Counts:与转录本重叠的reads数。
👉RPKM/FPKM:Reads/Fragments per kilobase of transcript per millions of read mapped
- FPKM(Trapnell, C. et al, 2010)是利用RNA-Seq技术用来定量估计基因表达值的一个非常有效的工具。
- 落在一个基因区域内的read counts数目取决于基因长度和测序深度,换句话说,一个基因越长,测序深度越高,落在其内部的reads数目就会相对越多。而为了比较不同样本中不同基因的表达量,就去除测序深度和基因长度的的影响。
- 采用了两个标准化:reads数标准化和长度标准化:
RPKM(A)=C/(N/10^6 *L/10^3) ,其中C是唯一比对到转录本A的reads数,N是唯一比对到所有转录本的reads数,L是转录本A的长度。
【建库测序是一个随机抽样的过程,而这个抽取的样品实际上是以 Fragments 为单位,而不是 Reads。因此,使用FPKM更为合理。当 single-end 测序的时候,RPKM 与 FPKM 是等价的;当 pair-end 测序的时候(一个fragment对应两条reads),应该使用 FPKM。】
👉TPM: Transcripts per million reads
【当样本差异过大,要强调准确度或者定量目标基因的表达量的时候,TPM是最有效的。TMP先处理基因长度问题,再处理测序深度。】
4)plot the data(PCA分析)
目的:1⃣️ 告诉我们是否能看到对照组与处理组直接的差异;2⃣️ 为下游的分析去掉其中不可靠的数据。
5)差异基因表达分析(通常edgeR或DESeq2)
~~未完待续~~
以上内容参考:
1. 简书 刘小泽:简单理解RNA-Seq
2. 简书 刘小泽:转录组谜团
3. 简书 刘小泽:转录组那些事儿 Part I
4. 简书 生信星球转录组培训第一期Day1--善良土豆
更多资料:
视频 StatQuest: A gentle introduction to RNA-seq
讲义 http://www.mi.fu-berlin.de/wiki/pub/ABI/GenomicsLecture12Materials/rnaseq1.pdf