作者:大行山
审稿:童蒙
编辑:angelica
引言
三代测序技术的发展,为人类基因组结构变异检测带来了新机遇,是时候借助三代技术这股春风,发掘遗传病里的潜在致病因子——基因组结构变异。
三代基因组重测序轻轻松松鉴定到一万多个基因组结构变异,哪个才应该是你最关注的的致病结构变异,你get到了吗?来,小编教你!
一、遗传病里的暗物质
在过去的几十多年里,特别是高通量技术的出现,人类遗传病编码区域的致病性突变位点被逐步揭开了神秘面纱,但是当前罕见病的诊断率依然不足50%,有很多罕见病依然无法通过当前的短读长测序平台找到致病位点。
主要原因可能是当前的短读长测序平台对单碱基突变位点的检测比较敏感,对于大片段或者复杂的重复区域的结构变异检测可能力不从心,但是这些结构变异可能在遗传病里扮演了重要角色。
二、结构变异那些事
结构变异(structure variants,SV),一般指基因组中大于50bp的大片段变异,主要包括插入(Insertion,IN)、缺失(Deletion,DEL)、重复(Duplication,DUP)、倒位(Inversion,INV)、易位(Translocation,TRA)等。虽然短读长的高通量测序也能检测这些类型的SV,但是由于其读长有限,对大片段的SV检测能力有限,而且假阳性率也比较高,所以,关于遗传病的SV研究并不多见。
三、三代测序助力SV检测
近几年,三代测序技术的快速发展,为遗传病的诊断带来了新的机遇。三代测序以其长读长、无偏向性等优势对大片段的结构变异检测有更好的检出率,同时对一些复杂的SV也能够很好的检测出来,例如串联重复,复合杂合SV。
上图展示了三代测序在复杂SV的检测效力。a 作者基于三代测序鉴定到17号染色体上的ERBB2基因的一小部分大量扩增、断裂,与8号染色体发生基因融合[2],b使用三代测序鉴定到的串联重复序列[3]。
四、一瞥三代人重测序鉴定的SV
就目前已经发表的文章而言,使用三代测序检测的SV数目可谓惊人,一般都能超过一万个。例如在carney综合征研究中得到了13792个DEL和INS类型SV,在进行性阵挛性癫痫病中检测到了17165个INS和DEL类型的SV。
在实际项目里,DEL和INS类型的SV同样占主要部分,如下图,SV总数约2万个,其中INS和DEL类型的SV数目最多,占比接近95%。
如何从这么多的SV里面万里挑一,找到致病SV,成为当前疾病研究者最关注的问题。
五、遗传病SV万里挑一
01 实验设计
在最初实验设计或者样本筛选上,尽可能地考虑周全,除对先证者进行三代人重测序外,尽可能同时包含其父母和同胞兄妹,这样比较容易全面的找到致病变异,如果条件有限,可以参考下面的倒金字塔进行样本选择。
如图,遗传病致病SV检测的实验设计,优先级从下到上,依次降低。
02 初步过滤
既然是筛选致病的SV,首先肯定是保留患病样本特有的SV。这里就需要根据实验设计的几种情况进行分别处理。
第一种情况,如果既有先证者,又有其父母和表型正常的兄妹样本:这种情况下,如果这种疾病没有报道的话,我们需要首先判别遗传模式,根据相应的遗传模式进行筛选。如果该病有报道,可以参考已经报道的遗传模式进行筛选,这里正常的兄妹样本可以进一步去除背景SV,缩小致病SV的范围。
第二种情况,如果有先证者和其父母样本:同样根据遗传模式进行过滤。
如果是第三种情况,只有先证者,没有正常对照:操作起来比较麻烦,但是也可以退而求其次,选择发表的数据作为对照,例如Carney综合征研究中就使用了NA12878标准品结果做为正常样本进行过滤[4]。经过这一步过滤,一般能够过滤掉70%的SV,SV数目由5位数变为了4位数。
03 功能基因过滤
考虑到遗传病的发生主要由基因来介导,所以接下来要保留与基因相关的SV,这里主要指与基因位置有重叠的SV。例如在进行性肌阵挛性癫痫研究中,经过基因过滤,SV数目由4453变为了1981,SV数目进一步下降。如图为实际研究中SV经过对照和基因过滤后的SV数目统计。
04 外显子过滤
接下来进一步缩小范围,我们知道基因是由编码区和非编码区构成的(如图),而真正行使生物学功能的是转录翻译为蛋白的外显子区域,所以我们保留与基因的外显子区域有重叠的SV,如果想更细致的话,也可以考虑只保留编码蛋白功能的CDS区域,通常情况下经过这步过滤就只剩下几十个候选SV了。
05 数据库过滤
百里者,半九十。截至到上一步,虽然我们已经从上万个SV筛选得到了几十个SV,前面这些步骤都可以使用程序批量完成。但是,这些都是候选SV,我们的目标是找到致病的SV,接下来才是最重要最耗时的。我们要借助于现有的数据库进一步锁定致病SV。比如OMIM数据库,记录了很多遗传病相关的基因,我们从中筛选跟目标遗传病相关的致病基因,二者取交集,或许就能找到目标SV。如果OMIM数据没有关注的遗传病信息呢?我们可以根据患者的表型信息,通过检索HPO数据库,筛选表型相关的基因,然后再与我们的候选SV进行比较获得目标SV。
至此,我们筛选到了我们的目标SV,那是不是到这里就结束了,并没有。
06 SV验证
拿到了目标SV,还并不能直接发文章,还需要其他证据来佐证这个结果。首先就是SV的真实性验证,要在先证者、正常对照中验证SV是否真实存在。其次验证SV的遗传性,其父母是否存在该SV,该SV的遗传过程是否符合遗传规律。再次是功能性验证,比较直接的方法是通过转录组测序,查看相关基因的表达情况,确认该SV是否影响了该基因的正常表达,至此我们完成了疾病SV的万里挑一。
以上为小编个人经验之谈,仅供参考,不足之处,欢迎指正。
参考文献
【1】Mitsuhashi, Satomi and Naomichi Matsumoto. Long-read sequencing for rare human genetic diseases. Journal of Human Genetics 65, 11-19 (2019) .
【2】Nattestad, M. et al. Complex rearrangements and oncogene amplifications revealed by long-read DNA and RNA sequencing of a breast cancer cell line. Genome Res. 28, 1126–1135 (2018).
【3】Mizuguchi, T. et al. Detecting a long insertion variant in SAMD12 by SMRT sequencing: implications of long-read whole-genome sequencing for repeat expansion diseases. J. Hum. Genet. 64, 191–197 (2019).
【4】Merker, J. D. et al. Long-read genome sequencing identifies causal structural variation in a Mendelian disease. Genet. Med. 20, 159–163 (2018).
【5】Mizuguchi, T. et al. A 12-kb structural variation in progressive myoclonic epilepsy was newly identified by long-read whole-genome sequencing. J. Hum. Genet. 64, 359–368 (2019).
作者:大行山
审稿:童蒙
编辑:angelica