语雀:左手柳叶刀右手炭火烧
微信公众号:研平方 | 简书:研平方
关注可了解更多的科研教程及技巧。如有问题或建议,请留言。
欢迎关注我:一起学习,一起进步!
今天有师弟问我关于转录组测序和基因芯片的东西。问题如下:芯片里面用RMA 方法标准化的方法是以FPKM作为标准么?
- 基因芯片和转录组测序是完全两个不同的东东,其背后的技术原理各位生信爱好者,小编觉得还是需要搞清楚的。
- RMA(log scale robust multi-array analysis,多阵列对数健壮算法):是microarray的一种主流算法。该算法RMA算法并不直接从PM的信号中减去做为背景的MM信号,而是基于20组探针的信号分布来判断是信号还是噪音,这种算法对于低噪号的实验有较大的适用性。
- FPKM( Fragments Per Kilobase of exon model per Million mapped fragments,每千个碱基的转录每百万映射读取的片段数):是转录组测序数据分析中,考虑到测序深度和基因长度一种常用的标准化方法。当然当前比较推崇TPM标准化方法,可从FPKM数据转化为TPM(Transcripts Per Kilobase of exon model per Million mapped reads,每千个碱基的转录每百万映射读取的转录本数)。
在3年前的笔记中扒拉半天,决定将以下内容和大家分享。之前也推过一篇基因芯片的前生今世-必备基础知识的文章,建议各位结合起来阅读。
1. 何为高通量测序?
高通量测序技术(High-throughputsequencing)又称“下一代”测序技术("Next-generation"sequencing, NGS),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。 根据发展历史、影响力、测序原理和技术不同等,主要有以下几种:大规模平行签名测序(Massively Parallel Signature Sequencing, MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454 pyrosequencing)、Illumina (Solexa) sequencing、ABI SOLiD sequencing、离子半导体测序(Ion semiconductor sequencing)、DNA 纳米球测序 (DNA nanoball sequencing)等。
2. 常见测序平台
三十多年前,Sanger首次建立了DNA双脱氧测序技术,完成了第一个完整基因组图谱的绘制。时至今日,由于DNA测序技术的改进,测序的规模也从以往每天只能测定几千个碱基序列发展到了如今的一次进行成千上万个序列精确测定的水平,同时该技术的发展也使得对一个物种的基因组和转录组进行全面的分析成为可能,基因方面的研究逐步进入了基因组和后基因组时代。这种以一次并行对几十万到几百万条DNA分子的序列测定和一般读长较短等为标志的技术称为高通量测序技术,其中主要包括以Illumina/Solexa、Roche/454、ABI/SOLID为代表的第2代测序技术,单分子测序为代表的第3代测序技术及Ion Torrent测序技术。
当然,第三代测序技术已经被开发出来,以PacBio公司的SMRT和Oxford Nanopore Technologies公司的纳米孔单分子测序技术为代表。
公司名称 | 技术原理 | 技术开发者 | 商业模式 |
---|---|---|---|
Apply Biosystems(ABI) | 基于磁珠的大规模并行克隆连接DNA测序法 | 美国Agencourt私人基因组学公司(APG) | 上市公司:销售设备和试剂获取利润 |
Illumina | 合成测序法 | 英国Solexa公司首席科学家David Bentley | 上市公司:销售设备和试剂获取利润 |
Roche | 大规模并行焦磷酸合成测序法 | 美国454 Life Sciences公司的创始人Jonathan Rothberg | 上市公司:销售设备和试剂获取利润 |
Helicos | 大规模并行单分子合成测序法 | 美国斯坦福大学生物工程学家Stephen Quake | 上市公司:2007年5月首次公开募股(IPO) |
Complete Genomics | DNA纳米阵列与组合探针锚定连接测序法 | 美国Complete Genomics公司首席科学家radoje drmanac | 私人公司:投资额为4650万美元 |
2.1 Roche/454焦磷酸测序(pyrophosphate sequencing)
Roche公司于2005年推出基于焦磷酸测序原理和微流体技术整合的超高通量基因组测序系统。这是一种依靠生物发光进行DNA序列分析的新技术。在DNA聚合酶、ATP硫酸化酶、荧光素酶和双磷酸酶的协同作用下,将引物上每一个dNTP的聚合与一次荧光信号释放偶联起来。通过检测荧光信号释放的有无和强度,就可以实时测定DNA序列。与其他的测序平台相比,454测序的突出优势是读长,而且不需要荧光标记的引物或核酸探针,也不需要进行电泳,具有分析结果准确、快速、灵敏度较高等优点。它的缺点是无法准确测量同聚物的长度,以及在测序过程中引入插入和缺失的测序错误。目前,该技术在基因组从头测序、转录组分析等领域有着广泛的应用。
2.2 Illumina/Solexa 合成测序(sequence by synthesis)
该技术利用单分子阵列在小型芯片上进行桥式PCR反应,是对合成测序技术的发展和延伸。由于采用新的可逆阻断技术,现在可以实现每次只合成一个碱基,并标记荧光集团,捕获激发光,因此可以读取碱基信息。
Illumina/Solexa测序在人、动植物和微生物领域均有相关研究报道。在不需要知道模式物种的基因组序列、不需要合成探针的前提下就可以直接进行全基因组表达研究,此外,不需要实验室假设支持就可以检测到单拷贝分子的变化情况。该技术还优化了传统测序方法的不足,所以Illumina/Solexa测序具有高通量、高灵敏度、高准确性及低运行成本等诸多优势。最重要的是该技术综合考虑了通量、运行时间和样品量,所以高质量数据、简单的流程、低样品需求及其灵活性的应用让它从其他高通量测序技术中脱颖而出。目前,该技术在基因组从头测序、重测序、转录组测序及表观遗传学等方面应用范围较广。
illumina测序原理简介:https://www.bilibili.com/video/BV1ht411q7Wh/
2.3 ABI/SOLiD连接法测序(sequence by ligation)
2007年ABI推出了SOLiD测序平台。该技术是基于双碱基编码的原理,通过寡核苷酸连接和检测进行测序,以四色荧光标记寡核苷酸的连续连接合成为基础,对单拷贝DNA片段进行大规模扩增和高通量并行测序,且SOLiD系统通过荧光染料标记不同的荧光基团,从而达到检测序列的目的。该技术是玻片式的结构,能使得平台快速升级到更高的通量,而不需要对基础的技术和配置进行很大改变。SOLiD系统最大的优点就是每张玻片能容纳比454更高密度的微珠,在相同系统中轻松实现高通量。但在荧光解码阶段,鉴于其是双碱基确定一个荧光信号,因而一旦发生错误就容易产生连锁的解码错误。目前该技术在基因组重测序、基因型分析、基因表达分析、小分子RNA、表观组学测序(染色质免疫共沉淀和DNA甲基化)等领域应用较多。
3. 高通量测序技术的应用
3.1 在基因组学研究中的应用
3.1.1 全基因组从头测序
3.1.2 全基因组重测序
3.2 在转录组学研究中的应用
3.2.1 转录组测序:这个应该是各位刚接触生信后接触最多的概念之一了,也是拿转录组测序数据练练手。
转录组测序(RNA-Seq)是基于第2代测序技术研究特定组织或细胞在某个时期转录出来的所有mRNA。转录组研究能够从整体水平研究基因功能及基因结构,揭示特定生物学过程中的分子机理,目前在分子育种、临床诊断和药物研发等领域广泛应用。转录组不同于基因组,其定义中包含了时间和空间的限定,同一细胞在不同生长时期及不同环境其基因表达情况是不完全相同的。该测序的优势不仅可以检测已知转录本的表达,还可预测新的转录本。在未知物种基因或基因组信息时,就能够直接对任何物种进行最全面的转录组分析。转录组测序主要应用于以下领域:
差异基因表达分析:差异基因中筛选到候选基因,通过RT-PCR技术鉴定。
开发SNP标记:
发现新基因完善基因组注释:
开发SSR标记:
3.2.2 Small RNA(miRNAs、siRNAs、piRNAS)
3.3 在表观基因组学研究中的应用
3.3.1 DNA甲基化
全基因组Bisulfite测序
MeDIP-Seq
3.3.2 组蛋白修饰
4. 高通量测序和基因芯片的区别
高通量测序和基因芯片是两种重要的高通量基因组学研究技术,对于解释基因组的结构和功能都发挥了重要的作用。基因芯片和基因测序都属于分子诊断的范畴,而分子诊断与化学诊断、免疫诊断一起构成了大家熟悉的体外诊断行业。新一代基因测序技术飞速发展,市场上的报告都集中关注于基因测序,使得原本红火的基因芯片技术沉寂了不少。诚然,在某些方面,新一代测序让芯片失色,但就很多应用而言,芯片仍然是不可取代的。
4.1 DNA芯片关键是“筛”!
基因芯片技术应用领域主要有基因表达谱分析、新基因发现、基因突变及多态性分析、基因组文库作图、疾病诊断和预测、药物筛选、基因测序等。
4.2 RNA 测序关键是“测”!
RNA 测序(RNA-seq)即转录组测序技术,就是把mRNA、小RNA和非编码RNA等或者其中一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。RNA-Seq可进行全基因组水平的基因表达差异研究,具有定量更准确、可重复性更高、检测范围更广、分析更可靠等特点。除了分析基因表达水平,RNA-Seq还能发现新的转录本、SNP和剪接变体,并提供等位基因特异的基因表达。
4.3 本质不同:
基因芯片的本质是核酸杂交。只不过是同时进行上万个核酸杂交而已;第二代测序在本质上是PCR,先用PCR的方法构建测序文库(SOLiD的油包水PCR,Solexa的桥式PCR),随后再以“边合成边测序”或者“连接介导的测序”,得到序列信息。
4.4 应用不同:
由于是核酸杂交,不需要扩增。因此基因芯片是个相对封闭的系统,只能检测序列已知的片段的浓度;另外,由于不需要扩增,保真性也较好。第二代测序本质上是测序,因此是个开放的系统,能检测到那些没有参考序列的片段,并且给出序列。由于在构建测序文库的过程中有PCR放大的过程,因此相对灵敏度较高(需要高覆盖倍数的测序深度配合),但也由于PCR放大过程的不均衡性,样品中片段的内在浓度比例常常会被破坏掉。所以:
- microarray不能发现新序列,而NGS可以发现一些以前没有检测到的基因。
- 由于NGS本质上还是PCR,在建库的过程中样本被扩增上千倍,因此样本中基因的量的线性关系会有所偏差。因此NGS定量不是很好。如果想检测基因的表达量,还是用microarray的好。
4.5 RNA-seq对芯片的优势:
RNA-seq检测基因表达主要集中在7个方面相比芯片有优势。首先,RNA-seq不同于基因芯片,检测转录本不需要依赖已知基因组或转录组的参考序列,RNA-seq可以通过比对或者拼接的方法,分别检测有参考序列和无参考序列的转录组。基因芯片的最大缺点,就在于它是一个“封闭系统”,只能检测已知的序列或有限的变异;而RNA-seq的最大优势,就在于它是一个“开放系统”,能发现和寻找新的信息。
动态范围大,是RNA-seq技术的第二大优势,它最低可以检测(即灵敏度)到总RNA中千万分之一的表达量,只要足够的测序深度,最高表达量不受限制;而芯片由于非特异性杂交带来的噪声,不能检测低丰度表达的转录本,而且,超过一定丰度,检测会产生饱和现象。如Affymetrix芯片上最多检测50 000个拷贝,超过这个数值,检测信号也不会增大。另外,芯片的非特异性杂交还带来的背景噪声还影响了检测准确度。
RNA-seq提供了更为丰富的序列信息,包括可变剪切、 融合基因或SNP等大量序列变 异信息,而且链特异性技术可以测定转录本来自于DNA哪条链。
对于芯片数据,由于多种因素降低了芯片实验的可重复性,造成了同一类芯片样本之间的相似度大幅降低: 而RNA-seq实验可重复性非常高,同类样本间的相关系数往往能够达到0.9以上。
比较项目 | 基因芯片 | RNA-seq |
---|---|---|
参考序列 | 需要 | 不需要 |
动态范围 | 小 | 大 |
背景噪声 | 大 | 小 |
受降解影响 | 大 | 小 |
序列变异 | 无法检测 | 可以检测 |
转录组方向 | 不能确定 | 能确定 |
可重复性 | 一般 | 高 |
4.6 RNA-seq存在的问题:
RNA-seq 检测基因表达比基因芯片有如此多的优势,大有取代基因芯片之势,那么它是否就是一个完美的技术呢?回答是否定的。尽管RNA叫相对于基因芯片技术的提高是显著的,甚至是革命性的,即使不考虑当前相对高的成本(这个随着应用范围增大会慢慢降低),而且RNA-seq依然存在着很多问题:
RNA-seq 测序之前需要一个比较复杂的文库构建过程,这个过程中的每个步骤都会带来误差,甚至导致实验失败。如cDNA片段化、 PCR扩增等都会带来偏倚(Bias),最终导致有的片段被反复测了多次,有的没有测到。rRNA去除不干净等因素也会带来大量污染。还有很多其他由实验带来的问题,如链特异性转录组建库中很容易导致第二链中的dUTP消化不全。
RNA-seq检测灵敏度和最大值是随测序深度变化的,深度不够,不能发现超低表达的转录本, 需要在测序前预估转录组的大小。由于复杂的RNA编辑等原因,高等生物的转录组数量与其编码的基因数量没有固定的比例关系,因此预估可能会有较大误差。
参考基因组或转录组不准确、测序误差、错误拼接或者比对带来的错误会大大影响各种变异或者可变剪切事件的识别。例如,使用Trinity拼接转录组时,有可能把同源基因或者同一家族的相似基因误拼在一起: 当使用Bowtie+ Top hat软件比对高等生物的转录组时, 其外显子——内含子边界的确定也是一个难题。 因此,RNA-seq发现多样性的能力就大打折扣。
各种其他问题。如整个实验流程中有可能引进各种污染:多样品混用同一个泳道时,Barcode会出现错误分配,其原因很多;原始数据的预处理,表达差异分析的数学模型等各方面都还不是很完善。