RNA-seq融合检测软件

STAR-Fusion

地址：Home · STAR-Fusion/STAR-Fusion Wiki · GitHub

输出文件示例：

#FusionName JunctionReadCount SpanningFragCount SpliceType LeftGene LeftBreakpoint RightGene RightBreakpoint LargeAnchorSupport FFPM LeftBreakDinuc LeftBreakEntropy RightBreakDinuc RightBreakEntropy annots

THRA--AC090627.1 27 93 ONLY_REF_SPLICE THRA^ENSG00000126351.8 chr17:38243106:+ AC090627.1^ENSG00000235300.3 chr17:46371709:+ YES_LDAS 23875.8456 GT 1.8892 AG 1.9656 ["CCLE","FA_CancerSupp","INTRACHROMOSOMAL[chr17:8.12Mb]"]

输出文件说明（难懂列说明）：

JunctionReadCount：支持断点的split-reads数目

SpanningFragCount：包含断点的RNA片段数目（一个RNA片段的两条reads分别比对到不同的基因上）

SpliceType：断点是否发生在参考转录本上

LargeAnchorSupport：断点是否有左右两端长度比较长的split-reads支持（即：断点是否倾向于发生在split-reads中间）；缺乏spanning片段和LargeAnchorSupport支持的断点倾向于是假阳性；LDAS = long double anchor support

FFPM：fusion fragments per million total reads（每M reads中支持融合的片段数）

LeftBreakEntropy|RightBreakEntropy：断点左右15bp(外显子上)序列的Shannon Entropy，代表序列复杂度（0-2之间，越高越复杂）

annots：对融合基因的简要注释

Arriba

地址：Output files - Arriba

输出文件示例：

#gene1 gene2 strand1(gene/fusion) strand2(gene/fusion) breakpoint1 breakpoint2 site1 site2 type split_reads1 split_reads2 discordant_mates coverage1 coverage2 confidence reading_frame tags retained_protein_domains closest_genomic_breakpoint1 closest_genomic_breakpoint2 gene_id1 gene_id2 transcript_id1 transcript_id2 direction1 direction2 filters fusion_transcript peptide_sequence read_identifiers

DDIT3 FUS -/- +/+ chr12:57914200 chr16:31196261 intron CDS/splice-site translocation 1 9 0 37 1082 high . . |RNA_recognition_motif._(a.k.a._RRM__RBD__or_RNP_domain)(100%),Zn-finger_in_Ran_binding_protein_and_others(100%) . . ENSG00000175197.6 ENSG00000089280.14 ENST00000551116.1 ENST00000254108.7 upstream upstream duplicates(7),mismatches(1) CTGAGCGTATCATGTTA?AGATGAGCGGGTGGCAGCGACAGAGCCAAAATCAGAGCTGGAACCTGAGGAGAGAGG|TAACTATGGCCAAGATCAATCCTCCATGAGTAGTGGTGGTGGCAGTGGTGGCGGTTATGGCAATCAAGACCAGAGTGGTGGAGGTGGCAGCGGTGGCTATGGACAGCAG . trn_433874,trn_135477,trn_142589,trn_1739741,trn_1779998,trn_2308393,trn_2332626,trn_242633,trn_2787100,trn_2946895,trn_297708,trn_3040178,trn_32450,trn_426992,trn_62570,trn_723483,trn_855077,trn_990866

输出文件说明（难懂列说明）：

strand：斜杠前后分别是基因strand和融合转录本strand；发生在基因间区的断点，基因对应strand用‘.’表示，无法预测转录本方向的，也用‘.’表示

site：断点位置类型

filters：被筛选掉的支持断点的reads数目及其原因

原理：

Arriba总的来说是一个过滤器的集成软工具，其主要有两种水平的过滤：read-level和event-level。

先说read-level：

（1）duplicates（重复）：对于重复reads的过滤主要通过两种方法（内部和外部），一种是根据片段比对位置（内部），一种是根据文库属性（外部；比较适用于需要考虑文库属性、加UMI标签的或无法利用比对位置去重的情况）；内部方法默认不可改，外部方法可用“-u”关掉。

（2）uninteresting_contigs：去除涉及非感兴趣染色体上（例如：人的24条染色体）的嵌合类型；“-i”参数。

（3）viral_contigs：去除不涉及主染色体的嵌合类型，“-u”参数。

（4）top_expressed_viral_contigs：用于保留top N表达的病毒嵌合，“-t”参数。参数思想是如果肿瘤真的源于病毒感染，那么会有大量的reads能够比对到病毒序列上；而且，由于基因相关区域的缺乏，病毒嵌合很大程度上是一个随机过程，很多嵌合位点都是位于基因间区；因此，大比例的intergenic-to-genic integration sites也是真正的病毒渗透的暗示。

（5）low_coverage_viral_contigs：去除高覆盖及低覆盖的病毒contigs，参数“-C”。参数思想是一些病毒contigs会吸引一些比对错误，通常，这些比对错误会有聚集的焦点区域；而真正的病毒渗透会相对均匀。覆盖度小于所有病毒contig平均覆盖度的5%被认为是不充分的，如果充分覆盖占比小于15%，所有与病毒contig有关的融合候选都会被去除。

（6）read_through：去除测序一端比对到基因上，另一端比对到基因外且距离小于一定值（参数“-R”设置）的片段，以及配对reads的方向来自于经典剪接的片段。可以排除接近基因末端的短片段缺失。

（7）inconsistently_clipped：去除由于插入片段长度过小，两端有重合，但一端表现为split-reads，另一端不是的片段。

（8）homopolymer：去除断点邻近同聚体的候选融合。

（9）small_insert_size：去除起始终止位置相差小于5bp及方向是由于重复产生的reads对。

（10）long_gap：去除有长gaps（>700kb）和短比对片段(<15nt)的reads。由于某些基因有超过1M的内含子，有人在用STAR比对时，为了容纳这些内含子会选择把比对内含子最大长度（--alignIntronMax）设置超过该内含子长度，这种可能会导致比对artifact。

（10）same_gene：去除比对到一个基因上的reads对。

---------------------待更新------------------------