欢迎关注公众号:oddxix
视频地址:https://v.qq.com/x/page/h0311d1zbrf.html
分两个部分进行介绍:
1.介绍外显子测序的技术方法
2.介绍外显子测序可以得到哪些有用的生物信息
一、外显子测序的技术方法
1.1实验原理
外显子测序的核心技术是针对人外显子序列设计的捕获探针库,这些探针的序列,都和人外显子的DNA序列相互补。在实验过程中,它可和人的外显子DNA序列进行杂交结合。同时,这些探针都标上了生物素。有了这个捕获试剂盒,就可以进行建库和捕获了。
第一步,是先把基因组DNA进行超声打碎,建成DNA文库。
第二步,是把建好的文库和探针库进行杂交
杂交过程中,通过核酸序列的互补结合的原理,探针会和目标DNA片段进行结合。再用结合了链霉亲和素的磁珠,与这个杂交混合液呐进行混合。
因为链霉亲合素会和生物素牢固结合。这样,就把我们要捕获的外显子目标片段,通过探针,间接地结合到了磁珠上。然后,通过磁铁把这些磁珠给吸附下来。
而把上清液呐给去掉,也就把没有结合的DNA片段给洗掉了。接下来,用洗脱液,把我们要的DNA文库从磁珠上给洗脱下来。那么这些文库呐,再经过PCR扩增,就可以上HiSeq测序仪进行测序了。测完序以后,就可以进行生物信息学的处理了。
1.2数据分析
先是把这些测序的DNA片段比对到人的基因组上,再把这些比对到基因组的序列进行突变分析。
覆盖深度
一般用Agilent SureSelect 50M的试剂盒进行外显子建库、捕获。再用HiSeq 2500 V4 PE125的方法进行测序,测10个G的数据量。大约可以得到95X的“有效测序深度”。我们说的有效测序深度(effective sequencing depth)是相对于总测序深度来说的。
总的测序深度呐,是把所有测得的数据(量)去除以目标区域的大小。举例来说,用Agilent 50M的这个试剂盒,我们测到10个G的数据。去除以目标区域的50M的大小,那么得到的是200X的测序深度(10G/50M = 200X)。但是这个200X的测序深度,对于做生物信息学分析来说呐,并没有太大的实在意义。因为当中还要扣掉许多无用的数据,才能得到有效的数据。
在外显子测序中,要扣掉4种因素引起的无效数据。
- 第一个影响因素:杂交捕获的过程它不是十分精确的,基因组中的有许多序列,是和外显子有一定的同源性的。那么这些片段呐,在杂交过程当中,也会被杂交捕获下来。而这些片段呐,不是基因的外显子。所以,我们在分析过程当中,首先要把这些序列给去除掉。
- 第二个影响因素,是捕获下来的一个片段,很可能它(只有)一部分的序列是落在目标区域还有一部分序列呐,是突出在目标范围之外的。那么,这部分突出来的序列呐,它不是目标区域,所以,它也不计入外显子测序的“有效测序深度”。
这个落在目标区的数据,占全部被测到的数据的比例,我们用一个专业术语来称乎它,叫作捕获效率(capture efficiency)。那么AgilentSureSelect这个试剂盒呐,它的捕获效率,大约是65~70%。
- 第3个影响因素:是Duplication。就是建库过程当中它的最后一步,是通过PCR扩增把原始的模板,扩增出几百倍来。那么由同一个模板分子扩增出来的子文库分子,是长得一模一样的那么这些多出来的这些分子,如果被重复地测到它并不能为我们提供太多有用的生物信息。所以,我们在生物信息分析的过程当中,我们要去掉这些重复的片段。那么要去掉这些重复的片段我们判断的依据是:2个DNA分子它们的5'起始位置、和3'的结束位置,完全一模一样,那么我们就认定这2个分子,是从同一个母分子,PCR出来的(2个)子分子。
然后,我们会比较这2个序列的数据质量,留下那个数据质量比较高的,去掉那个数据质量比较低的,这也就是我们通常所说的“去Duplication"的过程。用Agilent SureSelect试剂盒进行建库、捕获,实测10个G的数据,我们发现duplication大约在5%左右。duplication的比例不是恒定不变的。而是会随着测序深度的增加、而增加,因为上机(测序)的文库是经过PCR扩增的文库。随着测序量增大,那么测到源自同一个模板的PCR子分子的概率呐,就会提高。
- 第4个影响因素:是目前主流的测序方法是HiSeq V4 PE125。也就是:双端各测125个碱基,那么Agilent的建库方法中当呐,插入片段是150~200BP,这样一个大致范围的这些片段,那么它的平均片段长度呐,是180BP。那么我们用双端125的方法来测序就会导致左边的这个reads(序列)和右边的这个reads(序列),读到当中,会有一段,大概会有70BP的交叠。
那这个70BP的交叠的序列,是冗余的序列。也就是说,我们读了250个BP的序列,但是其中大约有效的呢,是180个(BP)。有70个BP呐,是冗余的。
综合上述4项因素,我们可以看到,用AgilentSureSelect 50M的这个捕获试剂盒进行建库、捕获,并且用HiSeq V4 PE125的测序方法来测序,测10个G的数据量,那么可以得到,大约95X的有效测序深度,(10 * 0.7 * 0.95 * 180 / 250 / 50 = 95)。
覆盖均匀性
除了测到的有效数据量之外,还有一个因素会影响到后面的分析,这就是Reads的分布均匀情况,也就是说目标区域的每个碱基被覆盖的深度的均匀性。那么这个结果呐,是越均匀越好。
科学家经过实测,发现Agilent的SureSelect、和Roche的Nimblegen,这两个捕获试剂盒,所得到的覆盖均匀性是比较好的。
1.3 外显子测序在肿瘤测序中的优势
外显子测序,可以测Germline突变(胚胎形成时就带有的突变),也可以测体细胞突变(Somatic Mutation),但随着Illumina推出HiSeq X10测序仪,把人全基因组测序的直接成本降到1000美元以下,那么Germline水平的突变呐,已经很少用外显子来测了。目前,外显子测序的主要优势就体现在肿瘤基因测序方面,之所以外显子测序在肿瘤基因测序方面有优势是因为外显子测序,它的测序深度,可以比较容易地做到“深度”测序。它可以比较轻易地达到100X、200X,甚至更深的测序深度。这就有利于测到 low allele frequency (低等位基因频名优新)的体细胞突变。因为肿瘤中的突变呐,往往都是 low allele frequency 的体细胞突变。所以,外显子组测序就在测肿瘤基因组突变方面,显出比较明显的优势来。
那么如果是要测肿瘤中的体细胞突变呐,一般是拿手术切下来的肿瘤组织DNA、和病人外周血中的白细胞基因组DNA,进行外显子测序。一般肿瘤的测100~200X的深度,白细胞的(DNA)测100X的深度。从白细胞DNA得到这个病人的Germline基因组序列,拿肿瘤的DNA序列与之做对比,找出其中的体细胞突变。
二、外显子测序可以得到哪些有用的生物信息
2.1SNP信息
外显子组测序,主要能够得到的信息是点突变,也就是SNP信息,和插入缺失突变,也就是Indel信息。这张图就是找到的体细胞突变的泡泡图。在这个泡泡图中,突变频率越高的基因,就画一个大泡泡,放在图的中间。突变频率低一点的基因,就画一个相对小一点的泡泡,延着逆时针排列。再低频的突变,再画一个再小的泡泡,再在外面再排列下去。依此类推,就得到这样一个泡泡图。
泡泡图有利于我们非常直观地看到样本中体细胞突变的情况。
2.2GO 和 Pathway 分析
找到突变之后,就可以进一步地做GO和Pathway分析。这张图是GO分析的结果。
这是根据突变的点在肿瘤中的富集的情况做的分析。分成“细胞组件”、“分子功能”、和“生物过程”3个大类,进行展示。柱子越高,则表示这个亚类当中突变越多。
这是有向无环图,它把突变进一步一步富集到更精细的小概念当中进行展示。
这个图中,是越向下,它的功能就划分得越精细。同时颜色越深的块块,则表示突变在这个小概念中富集程度越高。
这是Pathway的KEGG富集分析。它吶,可以帮助我们看到哪些通路发生了显著的变化。
更深一步的分解分析,则让我们深入地看到突变的基因在整个通路中所处的节点。
让我们更好地探索突变和病变之间的关系,我们要说明:在外显子测序的数据分析当中,对基因组的结构变异是不敏感的。不敏感的原因是外显子测序,只测了基因组上很小一部分区域,这个比例小到了只有1~2%,所以当结构变异的断点,不落在外显子区域的时侯呐,外显子测序是看不到这些断点的,所以我们说:外显子测序对基因组的结构,变异--SV(Structure Variation)呐,是不敏感的。
2.3对CNV不敏感
外显子测序对拷贝数变异(CNV,copy numbervariation),不是很敏感。不敏感的原因呐,是因为杂交捕获过程啊,是一个含了很高偶然性的过程。也就是说,一个外显子片段上,它有多少个reads(序列)被捕获下来,样本和样本之间是有很大差异的。或者说,它的覆盖度,本来就是忽高忽低的,因为有这种忽高忽低呐。这就导致:一个外显子上测到的Reads数变高,或者变低。我们很难判断,是因为这种偶然性呐,还是因为拷贝数发生了变异。所以,外显子测序,对于小片段的拷贝数变异,它本身是不敏感的。但是,如果基因组上发生了大片段的拷贝数变异。比如说,长度在5M(5M base pair)以上的片段发生了拷贝数变异。那么外显子测序是可以发现的,这是因为这样长的片段当中呐,一般含有多个外显子。当多个外显子的测序Reads数都发生了改变,那么,它就会有统计上的显著性。通过这种统计上的显著性,我们可以来判断:基因组上的确发生了拷贝数变异。
因为外显子组测序对结构变异和拷贝数变异不敏感,所以,在实际的肿瘤基因测序中呐,科学家往往是这样做的:用全基因测序来找到肿瘤样本中的结构,变异(SV)和拷贝数变异(CNV),再用来外显子组测序来找肿瘤样本中的、低频的SNP和Indel体细胞突变。