基础——illumina测序原理与细节(以RNA-seq为例)

目前我们主要分析的数据还是二代测序的数据,也就是大家经常挂在嘴边的 NGS,而这其中最大的赢家应该算是 illumina 测序公司了,其经典的边合成边测序(sequencing by synthesis,SBS)巧妙地利用带不同荧光的dNTP来让碱基组成可视化,本身还是很有意思的。但随之而来的就有一些问题,比如以RNA-seq为例,如果你是一个经典的从表达矩阵开始的数据分析选手,那其实建库细节对你来说好像也没那么重要;而如果你是一个从原始fastq下机数据(甚至建库实验)开始的数据分析选手,此时建库的细节就可能显得尤为重要,需要你做到知根知底。或许你经常遇到一些名词,其中有一些可能让你感到迷惑:

  • 桥式PCR
  • 链特异性RNA测序
  • sample index
  • adapter
  • 簇生成
  • ……

现在我们就以illumina经典的 TruSeq Stranded mRNA 建库测序为例来走一遍整个illumina测序的流程,为什么会选择这个建库策略呢?首先,RNA-seq是目前我们触手可及、应用最广的基因表达量检测技术;其次,相较之于链非特异性测序,链特异性测序对大多数人来说更复杂,更难以理解。关于链特异性测序我之前已经有一个长篇大论谈到了这个问题:一文阐述链特异性测序——stranded? reverse-stranded? un-stranded?,阅读量还不错,反馈也还可以,有兴趣的可以去看看,在这里就只以 TruSeq Stranded mRNA 为例了。

An overview of TruSeq Stranded mRNA sequencing

老规矩,我还是以图辅以文字的方式来先整体介绍一下 TruSeq Stranded mRNA

对着流程看,提前说一下,红色始终代表sense strand的信息,天蓝色代表antisense strand的信息

  • 首先,我们需要利用成熟mRNA带polyA尾的特点,通过oligo dT来富集出mRNA;
  • 接下来我们使用超声来对mRNA进行片段化,然后再使用随机引物进行反转录,这个过程就是第一条链的合成
  • 接下来我们使用诸如RNaseH的酶来消化降解掉杂合链中的RNA,然后再进行第二链的合成,不过这里我们不使用dTTP,而是使用dUTP。
  • 使用Klenow酶来给3'末端添加一个突出的A;
  • 连接adapter,注意这里的adapter结构哦;
  • 然后再进行PCR,由于DNA聚合酶不能以dUTP为模板,所以以sense strand为模板的链没有办法参与到PCR中,因此最终的双链DNA都是右下角那样的。
    我们最终可以看到,Read1测到的是antisense strand的信息,Read2测到的是sense strand的信息,这和我们之前的理解是一样的哈

illumina测序细节

注意了,我们现在回到这个结构,开始走上机测序的流程:


首先illumina测序用的东西叫:flowcell,这个结构的底部有很多的多核苷酸链,这些多核苷酸链是与我们的p5和p7接头互补的。

我们以一条DNA单链为例,首先它的P5接头序列会和flowcell上面的P5接头互补序列结合,然后会发生DNA的合成,注意合成完了之后,由于flowcell上面的接头互补序列是和flowcell共价连接的(已经用黄色圆圈标识出),所以很稳定,我们使用碱性溶液冲洗flowcell时,靠共价键连接在flowcell上的链并不会被冲洗掉,反之另一条链就被洗掉了,最后就成了最右边的那种情况。
接下来,发生了第一个名词的过程:桥式PCR

它为什么叫桥式PCR,其实很简单,就是因为中间进行PCR的时候像一个拱桥一样。同样的DNA合成后用碱性溶液就能使DNA双链解链,但是由于P7是共价连接在flowcell上的,所以不会被洗掉哦,如此重复进行桥式PCR,最终就会形成一个簇,第二个名词出来了,那就是簇生成你会发现这一簇单链DNA其实都是来自于一条起始DNA单链,也就是说,这一簇DNA实际上表征的生物学信息是一样的。有人会问,为什么要这么麻烦桥式PCR呢?回答这个问题就会提到边合成边测序了,单个碱基的荧光终究是比较弱的,但是很多个碱基的荧光聚在一起就会很明显了,就足够我们去准确判断碱基类型了。这就是为什么我们要进行桥式PCR的原因。下面开始测序,你就知道桥式PCR妙在哪里了:

我们先把连接在P5上面的链洗掉,就成了上图左边的情况,然后我们让read1的primer结合上去,边合成边测序,记住,这里一簇DNA有很多这样的链,所以你看到的荧光信号会很强,如果没有桥式PCR,你就不可能实现这样的效果。需要注意的是,我在这里把sample index也标出来了,为什么会有这个东西,因为实际上有时候一个flowcell的测序容量还是很大的,为了不造成浪费,很多时候我们会把来自不同样品的文库混在一起测,那我们在建库时就加上不同的sample index,但时候我们就能够根据这个sample index序列区分reads不同的样品来源了,一般如果有这个序列会以类似于I1.fq.gz的形式返给你,但实际上我们很少收到这个结果,就是因为测序公司下机后就会根据这个sample index把reads分好,所以你就只会拿到你的序列。
下一个名词:双端测序,为什么会有这个双端测序,实际上很简单,如果一条DNA序列很长,我们可能没办法通过一条reads把它全部测完,但同时我们又要精确定位其在基因组上的位置,这时双端测序就派上用场了,当我们把这个DNA的两端都测了之后,就知道这个DNA的两端分别在基因组的什么位置上了,这样即使中间还有一段我没测到也没关系,两端的位置已经决定了这个DNA片段在基因组上的位置了。这就是我们常说的Read1和Read2了,这里就简单说一下Read2是怎样产生的了:接着上面的图,同样的我们再进行一次桥式PCR,这时候flowcell上的P5接头也会“长出”一些序列,然后我们这次洗掉连接在P7上的序列,上下的就只有P5连接的序列了,再把Read2的测序引物加进去就能测得Read2了。

文库结构——到底什么是adapter?测序引物结构又是怎样的?

做过fastq文件比对的人都知道,这个过程中非常重要的,大家挂在嘴边的就是去接头,第三个名词出来了:adapter。那么到底什么是接头?fastqc这样的软件又是怎样检测到的?cutadaptfastptrimmomatictrim_galore这些软件又是怎么去接头的?似乎这些都是灰色地带,下面是我的理解:
首先还是看文库结构:


首先声明一个事实:

一般来说,我们不管是read1还是read2从哪里开始测,哪里就是我们想要的真实生物学序列了;

这实际上很好理解,我们没有人去adapter是从fastq文件中每条read的开头去的。那么什么是adapter呢?你可以简单理解为,在一个文库中,非生物学序列的其余序列都属于adapter,包括P5、P7、测序引物结合位点。那么fastqc是怎么检测adapter的呢?你去看看fastqc的GitHub,会发现它有这样的几个序列:

Illumina Universal Adapter                  AGATCGGAAGAG
Illumina Small RNA Adapter                  ATGGAATTCTCG
Nextera Transposase Sequence                CTGTCTCTTATA
SOLID Small RNA Adapter                     CGCCTTGGCCGT

你可能会觉得很神奇,其实fastqc判断你的序列有没有adapter就是在和这几个序列做简单的匹配罢了。接踵而来的问题就是:

  • 为什么这几个序列就能帮我们判断adapter的有无,按照我们的理解来说不应该adapter序列会很多样吗?
  • 这几个序列到底在文库的哪里?

首先给答案:

  • 这几个序列在测序引物的3’端;
  • 由于基本上所有的引物3'端都是这些序列,所以我们可以通过这几个序列判断adapter。

听起来很离谱,画个图就清楚了:


上面这个图展示了read1产生的全过程,显然红色部分都是我们想要的生物学序列信息,直到绿色部分就不是了,因为绿色部分实际上测的是read2的测序引物结合位点序列了。收到这样的启发,灵感来了:那我们判断一下一个read里面有没有测序引物结合位点就知道这个序列是不是有adapter了。实际上就是这样的。不信我们就来验证一下:
这份文库结构的注释来自于近岸蛋白的CUT&Tag试剂盒:

按理来说我们的测序引物结合位点应该在图中的黄色位置,按照我上面的理论,我们可以通过CTGTCTCTTATA来判断我们读到adapter了,实际上呢?回顾一下fastqc的那几个adapter的序列:

Nextera Transposase Sequence                CTGTCTCTTATA

果然,不能说完全相同,只能说一模一样,也就是说,现在市场上所有的Tn5转座酶都必须将这段序列连接到DNA的两端,这样才能让我们检测到adapter。
你可能还是不信,好吧,那再来一个其它的例子吧:


这份文档来自于illumina官方,我们看看这两个测序引物的3'端是不是可以作为我们检测adapter的标准哈,把read1的测序引物碱基互补配对一下(为什么就不赘述了……):5'-AGATCGGAAGAG-3',然后看一下我们的fastqc中的这个adapter:

Illumina Universal Adapter                  AGATCGGAAGAG

这不能说完全相同,只能说一模一样吧……总该信了?

结束了上面的测试,你或许会发现一个问题:那按这么说,是不是read1和read2的测序引物的3'端总是会有部分是一样的啊?一样的部分就是作为判断adapter是否存在的那条序列?你自己看看上面的那个图,不就知道了,事实上就是这样。

最后,为了让你更信,我还把trim_galore的adapter序列也粘贴在这里,这不和fastqc的一模一样?原来纷繁复杂的illumina测序竟然这么统一!

今天又是摸鱼🐟的一天!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容