STAR-Fusion
地址:Home · STAR-Fusion/STAR-Fusion Wiki · GitHub
输出文件示例:
#FusionName JunctionReadCount SpanningFragCount SpliceType LeftGene LeftBreakpoint RightGene RightBreakpoint LargeAnchorSupport FFPM LeftBreakDinuc LeftBreakEntropy RightBreakDinuc RightBreakEntropy annots
THRA--AC090627.1 27 93 ONLY_REF_SPLICE THRA^ENSG00000126351.8 chr17:38243106:+ AC090627.1^ENSG00000235300.3 chr17:46371709:+ YES_LDAS 23875.8456 GT 1.8892 AG 1.9656 ["CCLE","FA_CancerSupp","INTRACHROMOSOMAL[chr17:8.12Mb]"]
输出文件说明(难懂列说明):
JunctionReadCount:支持断点的split-reads数目
SpanningFragCount:包含断点的RNA片段数目(一个RNA片段的两条reads分别比对到不同的基因上)
SpliceType:断点是否发生在参考转录本上
LargeAnchorSupport:断点是否有左右两端长度比较长的split-reads支持(即:断点是否倾向于发生在split-reads中间);缺乏spanning片段和LargeAnchorSupport支持的断点倾向于是假阳性;LDAS = long double anchor support
FFPM:fusion fragments per million total reads(每M reads中支持融合的片段数)
LeftBreakEntropy|RightBreakEntropy:断点左右15bp(外显子上)序列的Shannon Entropy,代表序列复杂度(0-2之间,越高越复杂)
annots:对融合基因的简要注释
Arriba
输出文件示例:
#gene1 gene2 strand1(gene/fusion) strand2(gene/fusion) breakpoint1 breakpoint2 site1 site2 type split_reads1 split_reads2 discordant_mates coverage1 coverage2 confidence reading_frame tags retained_protein_domains closest_genomic_breakpoint1 closest_genomic_breakpoint2 gene_id1 gene_id2 transcript_id1 transcript_id2 direction1 direction2 filters fusion_transcript peptide_sequence read_identifiers
DDIT3 FUS -/- +/+ chr12:57914200 chr16:31196261 intron CDS/splice-site translocation 1 9 0 37 1082 high . . |RNA_recognition_motif._(a.k.a._RRM__RBD__or_RNP_domain)(100%),Zn-finger_in_Ran_binding_protein_and_others(100%) . . ENSG00000175197.6 ENSG00000089280.14 ENST00000551116.1 ENST00000254108.7 upstream upstream duplicates(7),mismatches(1) CTGAGCGTATCATGTTA?AGATGAGCGGGTGGCAGCGACAGAGCCAAAATCAGAGCTGGAACCTGAGGAGAGAGG|TAACTATGGCCAAGATCAATCCTCCATGAGTAGTGGTGGTGGCAGTGGTGGCGGTTATGGCAATCAAGACCAGAGTGGTGGAGGTGGCAGCGGTGGCTATGGACAGCAG . trn_433874,trn_135477,trn_142589,trn_1739741,trn_1779998,trn_2308393,trn_2332626,trn_242633,trn_2787100,trn_2946895,trn_297708,trn_3040178,trn_32450,trn_426992,trn_62570,trn_723483,trn_855077,trn_990866
输出文件说明(难懂列说明):
strand:斜杠前后分别是基因strand和融合转录本strand;发生在基因间区的断点,基因对应strand用‘.’表示,无法预测转录本方向的,也用‘.’表示
site:断点位置类型
filters:被筛选掉的支持断点的reads数目及其原因
原理:
Arriba总的来说是一个过滤器的集成软工具,其主要有两种水平的过滤:read-level和event-level。
先说read-level:
(1)duplicates(重复):对于重复reads的过滤主要通过两种方法(内部和外部),一种是根据片段比对位置(内部),一种是根据文库属性(外部;比较适用于需要考虑文库属性、加UMI标签的或无法利用比对位置去重的情况);内部方法默认不可改,外部方法可用“-u”关掉。
(2)uninteresting_contigs:去除涉及非感兴趣染色体上(例如:人的24条染色体)的嵌合类型;“-i”参数。
(3)viral_contigs:去除不涉及主染色体的嵌合类型,“-u”参数。
(4)top_expressed_viral_contigs:用于保留top N表达的病毒嵌合,“-t”参数。参数思想是如果肿瘤真的源于病毒感染,那么会有大量的reads能够比对到病毒序列上;而且,由于基因相关区域的缺乏,病毒嵌合很大程度上是一个随机过程,很多嵌合位点都是位于基因间区;因此,大比例的intergenic-to-genic integration sites也是真正的病毒渗透的暗示。
(5)low_coverage_viral_contigs:去除高覆盖及低覆盖的病毒contigs,参数“-C”。参数思想是一些病毒contigs会吸引一些比对错误,通常,这些比对错误会有聚集的焦点区域;而真正的病毒渗透会相对均匀。覆盖度小于所有病毒contig平均覆盖度的5%被认为是不充分的,如果充分覆盖占比小于15%,所有与病毒contig有关的融合候选都会被去除。
(6)read_through:去除测序一端比对到基因上,另一端比对到基因外且距离小于一定值(参数“-R”设置)的片段,以及配对reads的方向来自于经典剪接的片段。可以排除接近基因末端的短片段缺失。
(7)inconsistently_clipped:去除由于插入片段长度过小,两端有重合,但一端表现为split-reads,另一端不是的片段。
(8)homopolymer:去除断点邻近同聚体的候选融合。
(9)small_insert_size:去除起始终止位置相差小于5bp及方向是由于重复产生的reads对。
(10)long_gap:去除有长gaps(>700kb)和短比对片段(<15nt)的reads。由于某些基因有超过1M的内含子,有人在用STAR比对时,为了容纳这些内含子会选择把比对内含子最大长度(--alignIntronMax)设置超过该内含子长度,这种可能会导致比对artifact。
(10)same_gene:去除比对到一个基因上的reads对。
---------------------待更新------------------------