RNA-seq融合检测软件

STAR-Fusion

地址:Home · STAR-Fusion/STAR-Fusion Wiki · GitHub

输出文件示例:

#FusionName JunctionReadCount SpanningFragCount SpliceType LeftGene LeftBreakpoint RightGene RightBreakpoint LargeAnchorSupport FFPM LeftBreakDinuc LeftBreakEntropy RightBreakDinuc RightBreakEntropy annots

THRA--AC090627.1      27                93                ONLY_REF_SPLICE      THRA^ENSG00000126351.8          chr17:38243106:+  AC090627.1^ENSG00000235300.3    chr17:46371709:+  YES_LDAS            23875.8456  GT              1.8892            AG              1.9656            ["CCLE","FA_CancerSupp","INTRACHROMOSOMAL[chr17:8.12Mb]"]

输出文件说明(难懂列说明):

JunctionReadCount:支持断点的split-reads数目

SpanningFragCount:包含断点的RNA片段数目(一个RNA片段的两条reads分别比对到不同的基因上)

SpliceType:断点是否发生在参考转录本上

LargeAnchorSupport:断点是否有左右两端长度比较长的split-reads支持(即:断点是否倾向于发生在split-reads中间);缺乏spanning片段和LargeAnchorSupport支持的断点倾向于是假阳性;LDAS = long double anchor support

FFPM:fusion fragments per million total reads(每M reads中支持融合的片段数)

LeftBreakEntropy|RightBreakEntropy:断点左右15bp(外显子上)序列的Shannon Entropy,代表序列复杂度(0-2之间,越高越复杂)

annots:对融合基因的简要注释



Arriba

地址:Output files - Arriba

输出文件示例:

#gene1 gene2 strand1(gene/fusion) strand2(gene/fusion) breakpoint1 breakpoint2 site1 site2 type split_reads1 split_reads2 discordant_mates coverage1 coverage2 confidence reading_frame tags retained_protein_domains closest_genomic_breakpoint1 closest_genomic_breakpoint2 gene_id1 gene_id2 transcript_id1 transcript_id2 direction1 direction2 filters fusion_transcript peptide_sequence read_identifiers

DDIT3 FUS -/- +/+ chr12:57914200 chr16:31196261 intron CDS/splice-site translocation 1 9 0 37 1082 high . . |RNA_recognition_motif._(a.k.a._RRM__RBD__or_RNP_domain)(100%),Zn-finger_in_Ran_binding_protein_and_others(100%) . . ENSG00000175197.6 ENSG00000089280.14 ENST00000551116.1 ENST00000254108.7 upstream upstream duplicates(7),mismatches(1) CTGAGCGTATCATGTTA?AGATGAGCGGGTGGCAGCGACAGAGCCAAAATCAGAGCTGGAACCTGAGGAGAGAGG|TAACTATGGCCAAGATCAATCCTCCATGAGTAGTGGTGGTGGCAGTGGTGGCGGTTATGGCAATCAAGACCAGAGTGGTGGAGGTGGCAGCGGTGGCTATGGACAGCAG . trn_433874,trn_135477,trn_142589,trn_1739741,trn_1779998,trn_2308393,trn_2332626,trn_242633,trn_2787100,trn_2946895,trn_297708,trn_3040178,trn_32450,trn_426992,trn_62570,trn_723483,trn_855077,trn_990866

输出文件说明(难懂列说明):

strand:斜杠前后分别是基因strand和融合转录本strand;发生在基因间区的断点,基因对应strand用‘.’表示,无法预测转录本方向的,也用‘.’表示

site:断点位置类型

filters:被筛选掉的支持断点的reads数目及其原因


原理:

Arriba总的来说是一个过滤器的集成软工具,其主要有两种水平的过滤:read-level和event-level。

先说read-level:

(1)duplicates(重复):对于重复reads的过滤主要通过两种方法(内部和外部),一种是根据片段比对位置(内部),一种是根据文库属性(外部;比较适用于需要考虑文库属性、加UMI标签的或无法利用比对位置去重的情况);内部方法默认不可改,外部方法可用“-u”关掉。

(2)uninteresting_contigs:去除涉及非感兴趣染色体上(例如:人的24条染色体)的嵌合类型;“-i”参数。

(3)viral_contigs:去除不涉及主染色体的嵌合类型,“-u”参数。

(4)top_expressed_viral_contigs:用于保留top N表达的病毒嵌合,“-t”参数。参数思想是如果肿瘤真的源于病毒感染,那么会有大量的reads能够比对到病毒序列上;而且,由于基因相关区域的缺乏,病毒嵌合很大程度上是一个随机过程,很多嵌合位点都是位于基因间区;因此,大比例的intergenic-to-genic integration sites也是真正的病毒渗透的暗示。

(5)low_coverage_viral_contigs:去除高覆盖及低覆盖的病毒contigs,参数“-C”。参数思想是一些病毒contigs会吸引一些比对错误,通常,这些比对错误会有聚集的焦点区域;而真正的病毒渗透会相对均匀。覆盖度小于所有病毒contig平均覆盖度的5%被认为是不充分的,如果充分覆盖占比小于15%,所有与病毒contig有关的融合候选都会被去除。

(6)read_through:去除测序一端比对到基因上,另一端比对到基因外且距离小于一定值(参数“-R”设置)的片段,以及配对reads的方向来自于经典剪接的片段。可以排除接近基因末端的短片段缺失。

(7)inconsistently_clipped:去除由于插入片段长度过小,两端有重合,但一端表现为split-reads,另一端不是的片段。

(8)homopolymer:去除断点邻近同聚体的候选融合。

(9)small_insert_size:去除起始终止位置相差小于5bp及方向是由于重复产生的reads对。

(10)long_gap:去除有长gaps(>700kb)和短比对片段(<15nt)的reads。由于某些基因有超过1M的内含子,有人在用STAR比对时,为了容纳这些内含子会选择把比对内含子最大长度(--alignIntronMax)设置超过该内含子长度,这种可能会导致比对artifact。

(10)same_gene:去除比对到一个基因上的reads对。

---------------------待更新------------------------

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容