RNA-seq融合检测软件

STAR-Fusion

地址:Home · STAR-Fusion/STAR-Fusion Wiki · GitHub

输出文件示例:

#FusionName JunctionReadCount SpanningFragCount SpliceType LeftGene LeftBreakpoint RightGene RightBreakpoint LargeAnchorSupport FFPM LeftBreakDinuc LeftBreakEntropy RightBreakDinuc RightBreakEntropy annots

THRA--AC090627.1      27                93                ONLY_REF_SPLICE      THRA^ENSG00000126351.8          chr17:38243106:+  AC090627.1^ENSG00000235300.3    chr17:46371709:+  YES_LDAS            23875.8456  GT              1.8892            AG              1.9656            ["CCLE","FA_CancerSupp","INTRACHROMOSOMAL[chr17:8.12Mb]"]

输出文件说明(难懂列说明):

JunctionReadCount:支持断点的split-reads数目

SpanningFragCount:包含断点的RNA片段数目(一个RNA片段的两条reads分别比对到不同的基因上)

SpliceType:断点是否发生在参考转录本上

LargeAnchorSupport:断点是否有左右两端长度比较长的split-reads支持(即:断点是否倾向于发生在split-reads中间);缺乏spanning片段和LargeAnchorSupport支持的断点倾向于是假阳性;LDAS = long double anchor support

FFPM:fusion fragments per million total reads(每M reads中支持融合的片段数)

LeftBreakEntropy|RightBreakEntropy:断点左右15bp(外显子上)序列的Shannon Entropy,代表序列复杂度(0-2之间,越高越复杂)

annots:对融合基因的简要注释



Arriba

地址:Output files - Arriba

输出文件示例:

#gene1 gene2 strand1(gene/fusion) strand2(gene/fusion) breakpoint1 breakpoint2 site1 site2 type split_reads1 split_reads2 discordant_mates coverage1 coverage2 confidence reading_frame tags retained_protein_domains closest_genomic_breakpoint1 closest_genomic_breakpoint2 gene_id1 gene_id2 transcript_id1 transcript_id2 direction1 direction2 filters fusion_transcript peptide_sequence read_identifiers

DDIT3 FUS -/- +/+ chr12:57914200 chr16:31196261 intron CDS/splice-site translocation 1 9 0 37 1082 high . . |RNA_recognition_motif._(a.k.a._RRM__RBD__or_RNP_domain)(100%),Zn-finger_in_Ran_binding_protein_and_others(100%) . . ENSG00000175197.6 ENSG00000089280.14 ENST00000551116.1 ENST00000254108.7 upstream upstream duplicates(7),mismatches(1) CTGAGCGTATCATGTTA?AGATGAGCGGGTGGCAGCGACAGAGCCAAAATCAGAGCTGGAACCTGAGGAGAGAGG|TAACTATGGCCAAGATCAATCCTCCATGAGTAGTGGTGGTGGCAGTGGTGGCGGTTATGGCAATCAAGACCAGAGTGGTGGAGGTGGCAGCGGTGGCTATGGACAGCAG . trn_433874,trn_135477,trn_142589,trn_1739741,trn_1779998,trn_2308393,trn_2332626,trn_242633,trn_2787100,trn_2946895,trn_297708,trn_3040178,trn_32450,trn_426992,trn_62570,trn_723483,trn_855077,trn_990866

输出文件说明(难懂列说明):

strand:斜杠前后分别是基因strand和融合转录本strand;发生在基因间区的断点,基因对应strand用‘.’表示,无法预测转录本方向的,也用‘.’表示

site:断点位置类型

filters:被筛选掉的支持断点的reads数目及其原因


原理:

Arriba总的来说是一个过滤器的集成软工具,其主要有两种水平的过滤:read-level和event-level。

先说read-level:

(1)duplicates(重复):对于重复reads的过滤主要通过两种方法(内部和外部),一种是根据片段比对位置(内部),一种是根据文库属性(外部;比较适用于需要考虑文库属性、加UMI标签的或无法利用比对位置去重的情况);内部方法默认不可改,外部方法可用“-u”关掉。

(2)uninteresting_contigs:去除涉及非感兴趣染色体上(例如:人的24条染色体)的嵌合类型;“-i”参数。

(3)viral_contigs:去除不涉及主染色体的嵌合类型,“-u”参数。

(4)top_expressed_viral_contigs:用于保留top N表达的病毒嵌合,“-t”参数。参数思想是如果肿瘤真的源于病毒感染,那么会有大量的reads能够比对到病毒序列上;而且,由于基因相关区域的缺乏,病毒嵌合很大程度上是一个随机过程,很多嵌合位点都是位于基因间区;因此,大比例的intergenic-to-genic integration sites也是真正的病毒渗透的暗示。

(5)low_coverage_viral_contigs:去除高覆盖及低覆盖的病毒contigs,参数“-C”。参数思想是一些病毒contigs会吸引一些比对错误,通常,这些比对错误会有聚集的焦点区域;而真正的病毒渗透会相对均匀。覆盖度小于所有病毒contig平均覆盖度的5%被认为是不充分的,如果充分覆盖占比小于15%,所有与病毒contig有关的融合候选都会被去除。

(6)read_through:去除测序一端比对到基因上,另一端比对到基因外且距离小于一定值(参数“-R”设置)的片段,以及配对reads的方向来自于经典剪接的片段。可以排除接近基因末端的短片段缺失。

(7)inconsistently_clipped:去除由于插入片段长度过小,两端有重合,但一端表现为split-reads,另一端不是的片段。

(8)homopolymer:去除断点邻近同聚体的候选融合。

(9)small_insert_size:去除起始终止位置相差小于5bp及方向是由于重复产生的reads对。

(10)long_gap:去除有长gaps(>700kb)和短比对片段(<15nt)的reads。由于某些基因有超过1M的内含子,有人在用STAR比对时,为了容纳这些内含子会选择把比对内含子最大长度(--alignIntronMax)设置超过该内含子长度,这种可能会导致比对artifact。

(10)same_gene:去除比对到一个基因上的reads对。

---------------------待更新------------------------

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容