2018年,海普洛斯的科研人员发表了一篇用DNA数据直接预测融合基因的文章,标题事”GeneFuse: detection and visualization of target genefusions from DNA sequencing data”,文章发表在International Journal of Biological Sciences 上,作为一种DNA数据预测融合基因的软件,还是不多的,目前的方法多是由RNA数据比对出,但是这种方法不利于商业化,存在效率低,成本高的缺点。现在就让我们一起学习下GeneFuse的分析原理。
GeneFuse:从DNA测序数据中判断有无目标融合基因。DELLY可以从BAM文件中直接进行结构变异的挑选。首先,该算法根据比对结果进行配对端映射分析,找到方向异常或插入大小异常的序列。然后,识别出的配对端簇被解释为包含断点的基因组间隔,以单核苷酸分辨率绘制基因组重排图。最后,DELLY将合并支持的阅读对,并将它们与参考基因组进行注释。基于映射的基因融合检测器有几个优点。可以扫描尽可能多的找到融合基因位点。缺点是,太依赖比对文件(BAM文件),如果比对文件没有找到准确的剪辑和嵌合体,基于映射的融合检测算法可能无法正常工作。错误的比对经常在包含融合基因的位置发生。另一方面,准确的剪辑和嵌合体也经常发生在正常的不包含融合的阅读框中。最后低浓度的肿瘤DNA样本也会提高假阳性发生的概率。
在临床应用中,与其发现大量临床意义未知、不确定度较大的基因融合,不如寻找已知对临床治疗有响应的基因融合。GeneFuse软件能直接从FASTQ文件中探测到融合基因。GeneFuse软件只对具有已知临床意义的基因进行研究。
GeneFuse的基本思想是寻找能很好地映射到两个不同基因左右部分,但不能完全映射到整个参考基因组的任何位置的reads。在融合点匹配两个融合基因的读码称为支持读码,每个融合的重复支持读码将被分组为单个唯一的支持读码。Genefuse一共有四个步骤:
1、 Indexing
从参考基因组中提取基因序列需要一个包含目标融合基因及其外显子的CSV文件。GeneFuse提供了两个csv文件,分别是37和38版本的。
Hash表用来储存k-mer和基因组坐标相关关系,hash表以后会被用来映射read与目标基因。
2、 Matching
在匹配步骤中,通过收集序列的所有长度为k的子序列,计算每个read序列的集合。Read的相关基因通过上一部产生的索引号,将子序列映射相应坐标上。如果左右两部分能映射到两个不同的基因,这个read分割成两个部分。如果左右部分区域足够长(默认长度20),这个读长就是一个合适的匹配候选坐标。所有候选的匹配坐标将被储存在一个list上,下一步会过滤。
序列长度也会影响突变发现。为了获得较长的序列,GeneFuse尝试合并双端测序的每一对数据。对于read配对R1和R2,rcR2被认为是R2的反哺。合并算法尽可能找到R1和rcR2最大的重合,他们重合的子序列完全是相同的。如果重合的区域高于临界值(30bp),就认为他们是一个read,合并他们成一个read。通过合并read,继续匹配过程,即使突变点位于read的边缘。如何reads不能合并,GeneFuse会对这些进行处理。尽管插入一个大的序列库,会禁止read对的重叠,但它不会对性能造成重大影响,因为GeneFuse可以将一个read对单独处理为两个单端读取。
Filtering
匹配的坐标文件准备好以后,枚举支持融合的所有子序列,形成一个新的k-mer。全部的参考基因组将被扫描寻找K-mer组成,匹配后的基因坐标将被储存起来构建一个新的全局索引G。对于在融合匹配候选列表中的每个read,都会匹配到G,检查是否可以匹配到参考基因组。如果一个read可以映射到参考基因组,这个read可以从匹配的候选list里移除。
其它过滤--像低复杂度过滤器和匹配质量过滤器-也将被用于消除错误的部分。更进一步讲,如果一个read映射到一个基因的两个部分,它会被作为删除项,如果删除长度很短,则会被移除。
GeneFuse的工作流程
灵敏度检测
为了评估GeneFuse的性能,我们将其应用于覆盖1.6 Mb自定义面板的10个非小细胞肺癌细胞DNA样本,其中6个有已知的重排(EML4:exon6-ALK exon20;EML4:exon13-ALK exon20)经digital droplet PCR (ddPCR)证实,GeneFuse均能检测到。相反,在4个ALK野生型样本中均未检测到,因此在检测ALK融合事件时灵敏度和特异性均为100%。我们用FACTERA v1.4.4和DELLY v0.7.6测试了相同的数据集。
在分析癌症测序数据的临床应用中,从超深测序数据中检测出低MAF的可给药突变和融合至关重要。现有的工具,如DELLY和FACTERA,对检测结果不够敏感,缺乏可视化检测融合的功能。GeneFuse是一种快速、轻量级的工具,用于从原始FASTQ数据中检测目标基因融合。该工具具有很高的灵敏度,可以通过生成基于html的读取堆积可视化来可视化检测到的融合。进一步将基因融合检测推向临床应用。