转录组分析入门 1 —— 背景知识

内容简介

1. 转录组测序要测什么?

👉mRNA:最常见的转录组测序,建库一般选200-300bp的片段,PE150或125测序

👉microRNA:将microRNA分离出来直接单独测序

👉IncRNA:长链非编码RNA,有正向、反向转录,要进行链特异性建库

关于链特异性建库:作用就是测序过程保留转录本的方向信息,让我们知道转录本是来自正义链还是反义链。方便后来区分不同的IncRNA类型以及它的定位,可以更准确获得基因结构和表达信息。】

2. mRNA的提取、纯化及质量检测?

👉提取:

  • 大多数动植物组织样品,使用Trizol试剂即可;
  • 多糖含量丰富的植物,可以用多糖多酚试剂盒;
  • 脂肪组织可以用QIAGEN的RNeasy lipidmini kit ;

👉纯化:

  • 真核生物纯化mRNA,是利用它的3‘端polyA,采用oligoT磁珠将其富集纯化。
  • 但是原核没有polyA,并且大部分是核糖体RNA(rRNA),mRNA只占据了1-5%,因此需要先去除total RNA中的rRNA,需要使用去rRNA试剂盒(Ribo-Zero或KAPA试剂盒),*
  • 另外对于要测物种IncRNA的实验,如果有适用的试剂盒就用,否则不适用就会影响下游数据质量。

👉检测是否合格的指标:

  • RNA总量、RIN值、OD260/280以及真核28S/18S、原核23S/16S。
  • RIN值越高,28S/18S越接近2表示提取的RNA完整性越好。
    【RIN值高于6.5可以做建库准备,太低影响准确度。有一些昆虫或者水生动物没有28S条带,因此RIN值不能作为参考,但是18S的前基线平稳即可。】

3. 构建测序文库

👉分离RNA=》将RNA打断成小片段=》将小RNA片段反转录成DNA(DNA更稳定更容易扩增)=》加接头=》PCR扩增 =》质量检查QC

具体:总RNA样本检测合格后,对于真核生物,用带有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段,再以片断后的mRNA为模板,用六碱基随机引物合成cDNA第一链,并加入缓冲液、dNTPs、RNaseH和DNA Polymerase I合成cDNA第二链,经过QIAQuick PCR试剂盒纯化并加EB缓冲液洗脱。洗脱纯化后的双链cDNA再进行末端修复、加碱基A、加测序接头处理,然后经琼脂糖凝胶电泳回收目的大小片段并进行PCR扩增,从而完成整个文库制备工作。
注:
【RNA片段化目的:RNA长达几kb,测序仪器只能测200-300bp长度的短片断。
反转录目的:DNA更稳定更容易扩增。
接头作用:1⃣️ 使测序机器识别片段 2⃣️可同时测多个样品。
PCR扩增:只有加了接头的片段才能被扩增。】

4. 测序

目前二代测序主要采用Illumina平台

5. 分析流程

一般:质控-》比对(alignment or mapping)-》估算表达量(read counting)-》表达量比较(differential expression)。

1)质控(去除接头污染、低质量、N比例较高的reads,得到clean reads)

👉原始数据:Illumina测序仪下机的数据通常为Bcl格式,然后公司使用Bcl2Fastq软件,根据Index序列分割转换成每个样品的Fastq文件,用户拿到的就是fastq格式的原始数据。

👉质控:使用fastqc,查看碱基质量、接头情况、GC含量、序列长度、重复序列等

👉过滤:一般需要去掉低质量碱基或者未识别碱基(N)太多的reads;另外如果测序文库的插入片段太短,比如insert size=50,但采用PE 150测序,read1和read2就会测到接头,所谓的“测通“就是这意思,此时需要去掉接头序列。有时会出现两个接头连在一起的情况,也需要去掉。

2)比对

不同的比对流程👇

比对模式

上图来自文章A survey of best practices for RNA-seq data analysis, 2016, GB

  • 基于参考基因组比对(有参考基因组,想分析新转录本):
    因为基因组包含了基因间区、内含子区域,因此比对时选取的比对软件就要具有"跨越式拼接”特性,比如STAR、Hisat2;
  • 基于参考转录组比对(有参考基因组,分析已知转录本):Bowtie、BWA;
  • 无参考基因情况(没有参考基因组,或者有组装质量不好的,需要自己组装转录本):
    需要拼接Trinity:利用测序reads从头组装拼接出参考unigene,再将每个样本的reads比对到参考unigene上,计算表达量。
    【对于大部分没有参考基因组或者基因组注释不好的物种,无参方法是比较理想的解决途径,但是比有参要消耗更多的内存、运行时间,不适合入门。】

看似简单的比对过程,就是帮150bp的reads找到家,其中可能还要让reads付出点“被分割”的代价。但是, 基因组有多大?人类的是3G,也就是30亿碱基,一个150bp对于整个基因组来说,简直不值一提,要从头一个一个比对吗?姑且这样可以,那么我们有多少reads?一般6G数据,150PE,会有20Mreads(=60亿/150/2),也就是2000万条reads。这该怎么办?怎样保证高效和低错误率?

👉HISAT2是TopHat2的升级版,该软件使用改进的BWT算法(Sirén et al. 2014)将参考基因组转换成index,实现了更快的速度和更少的资源占用。
【先将大的基因组序列打断成许多小片段,然后为了方便接下来寻找这些片段,需要对他们进行构建索引index(目的就是标注每个小片段的位置),再将测序的reads和基因组一样,也是打断成小片段,然后把它的小片段比对到基因组的小片段上,比对上的会给出位置信息。】
【注:index比对的方法也避免由于某个碱基不匹配导致整段reads比对不上的结果】

3)表达量估算

👉Counts:与转录本重叠的reads数。

👉RPKM/FPKM:Reads/Fragments per kilobase of transcript per millions of read mapped

  • FPKM(Trapnell, C. et al, 2010)是利用RNA-Seq技术用来定量估计基因表达值的一个非常有效的工具。
  • 落在一个基因区域内的read counts数目取决于基因长度和测序深度,换句话说,一个基因越长,测序深度越高,落在其内部的reads数目就会相对越多。而为了比较不同样本中不同基因的表达量,就去除测序深度和基因长度的的影响。
  • 采用了两个标准化:reads数标准化和长度标准化:
    RPKM(A)=C/(N/10^6 *L/10^3) ,其中C是唯一比对到转录本A的reads数,N是唯一比对到所有转录本的reads数,L是转录本A的长度。

【建库测序是一个随机抽样的过程,而这个抽取的样品实际上是以 Fragments 为单位,而不是 Reads。因此,使用FPKM更为合理。当 single-end 测序的时候,RPKM 与 FPKM 是等价的;当 pair-end 测序的时候(一个fragment对应两条reads),应该使用 FPKM。】

👉TPM: Transcripts per million reads
【当样本差异过大,要强调准确度或者定量目标基因的表达量的时候,TPM是最有效的。TMP先处理基因长度问题,再处理测序深度。】

FPKM vs. TPM(来自生信星球)
4)plot the data(PCA分析)

目的:1⃣️ 告诉我们是否能看到对照组与处理组直接的差异;2⃣️ 为下游的分析去掉其中不可靠的数据。

5)差异基因表达分析(通常edgeR或DESeq2)

~~未完待续~~

以上内容参考:
1. 简书 刘小泽:简单理解RNA-Seq
2. 简书 刘小泽:转录组谜团
3. 简书 刘小泽:转录组那些事儿 Part I
4. 简书 生信星球转录组培训第一期Day1--善良土豆
更多资料:
视频 StatQuest: A gentle introduction to RNA-seq
讲义 http://www.mi.fu-berlin.de/wiki/pub/ABI/GenomicsLecture12Materials/rnaseq1.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352