GenFuse:一种可以从DNA数据预测融合基因的方法

2018年,海普洛斯的科研人员发表了一篇用DNA数据直接预测融合基因的文章,标题事”GeneFuse: detection and visualization of target genefusions from DNA sequencing data”,文章发表在International Journal of Biological Sciences 上,作为一种DNA数据预测融合基因的软件,还是不多的,目前的方法多是由RNA数据比对出,但是这种方法不利于商业化,存在效率低,成本高的缺点。现在就让我们一起学习下GeneFuse的分析原理。

GeneFuse:从DNA测序数据中判断有无目标融合基因。DELLY可以从BAM文件中直接进行结构变异的挑选。首先,该算法根据比对结果进行配对端映射分析,找到方向异常或插入大小异常的序列。然后,识别出的配对端簇被解释为包含断点的基因组间隔,以单核苷酸分辨率绘制基因组重排图。最后,DELLY将合并支持的阅读对,并将它们与参考基因组进行注释。基于映射的基因融合检测器有几个优点。可以扫描尽可能多的找到融合基因位点。缺点是,太依赖比对文件(BAM文件),如果比对文件没有找到准确的剪辑和嵌合体,基于映射的融合检测算法可能无法正常工作。错误的比对经常在包含融合基因的位置发生。另一方面,准确的剪辑和嵌合体也经常发生在正常的不包含融合的阅读框中。最后低浓度的肿瘤DNA样本也会提高假阳性发生的概率。

在临床应用中,与其发现大量临床意义未知、不确定度较大的基因融合,不如寻找已知对临床治疗有响应的基因融合。GeneFuse软件能直接从FASTQ文件中探测到融合基因。GeneFuse软件只对具有已知临床意义的基因进行研究。

GeneFuse的基本思想是寻找能很好地映射到两个不同基因左右部分,但不能完全映射到整个参考基因组的任何位置的reads。在融合点匹配两个融合基因的读码称为支持读码,每个融合的重复支持读码将被分组为单个唯一的支持读码。Genefuse一共有四个步骤:

1、 Indexing

从参考基因组中提取基因序列需要一个包含目标融合基因及其外显子的CSV文件。GeneFuse提供了两个csv文件,分别是37和38版本的。

Hash表用来储存k-mer和基因组坐标相关关系,hash表以后会被用来映射read与目标基因。

2、 Matching

在匹配步骤中,通过收集序列的所有长度为k的子序列,计算每个read序列的集合。Read的相关基因通过上一部产生的索引号,将子序列映射相应坐标上。如果左右两部分能映射到两个不同的基因,这个read分割成两个部分。如果左右部分区域足够长(默认长度20),这个读长就是一个合适的匹配候选坐标。所有候选的匹配坐标将被储存在一个list上,下一步会过滤。

序列长度也会影响突变发现。为了获得较长的序列,GeneFuse尝试合并双端测序的每一对数据。对于read配对R1和R2,rcR2被认为是R2的反哺。合并算法尽可能找到R1和rcR2最大的重合,他们重合的子序列完全是相同的。如果重合的区域高于临界值(30bp),就认为他们是一个read,合并他们成一个read。通过合并read,继续匹配过程,即使突变点位于read的边缘。如何reads不能合并,GeneFuse会对这些进行处理。尽管插入一个大的序列库,会禁止read对的重叠,但它不会对性能造成重大影响,因为GeneFuse可以将一个read对单独处理为两个单端读取。

Filtering

匹配的坐标文件准备好以后,枚举支持融合的所有子序列,形成一个新的k-mer。全部的参考基因组将被扫描寻找K-mer组成,匹配后的基因坐标将被储存起来构建一个新的全局索引G。对于在融合匹配候选列表中的每个read,都会匹配到G,检查是否可以匹配到参考基因组。如果一个read可以映射到参考基因组,这个read可以从匹配的候选list里移除。

其它过滤--像低复杂度过滤器和匹配质量过滤器-也将被用于消除错误的部分。更进一步讲,如果一个read映射到一个基因的两个部分,它会被作为删除项,如果删除长度很短,则会被移除。

2.png

GeneFuse的工作流程

灵敏度检测

为了评估GeneFuse的性能,我们将其应用于覆盖1.6 Mb自定义面板的10个非小细胞肺癌细胞DNA样本,其中6个有已知的重排(EML4:exon6-ALK exon20;EML4:exon13-ALK exon20)经digital droplet PCR (ddPCR)证实,GeneFuse均能检测到。相反,在4个ALK野生型样本中均未检测到,因此在检测ALK融合事件时灵敏度和特异性均为100%。我们用FACTERA v1.4.4和DELLY v0.7.6测试了相同的数据集。

1.png

在分析癌症测序数据的临床应用中,从超深测序数据中检测出低MAF的可给药突变和融合至关重要。现有的工具,如DELLY和FACTERA,对检测结果不够敏感,缺乏可视化检测融合的功能。GeneFuse是一种快速、轻量级的工具,用于从原始FASTQ数据中检测目标基因融合。该工具具有很高的灵敏度,可以通过生成基于html的读取堆积可视化来可视化检测到的融合。进一步将基因融合检测推向临床应用。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 概述 融合基因是指两个基因的全部或部分序列融合而成的嵌合基因,一般由染色体易位、缺失等原因所致。融合基因首次发现于...
    shannonnana阅读 23,168评论 7 25
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 12,192评论 16 22
  • 今天感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 中午开了第一次的党会,身份的转变要...
    余生动听阅读 13,586评论 0 11
  • 可爱进取,孤独成精。努力飞翔,天堂翱翔。战争美好,孤独进取。胆大飞翔,成就辉煌。努力进取,遥望,和谐家园。可爱游走...
    赵原野阅读 7,720评论 1 1
  • 在妖界我有个名头叫胡百晓,无论是何事,只要找到胡百晓即可有解决的办法。因为是只狐狸大家以讹传讹叫我“倾城百晓”,...
    猫九0110阅读 8,592评论 7 3