可变剪切软件CASH测试

可变剪切介绍:

什么是基因的可变剪切?

有些基因的前体mRNA(pre-mRNA)通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或者选择性剪切)(Alternative Splicing)。

转录组一般是指从细胞或组织的基因组所转录出来的RNA的总和,包括编码蛋白质的mRNA和各种非编码RNA(rRNA,tRNA,snRNA,snoRNA,lncRNA,microRNA等)。真核生物的基因结构是不连续的,如下图:


真核基因结构图

其基因组最初的转录产物其实并不是成熟的mRNA分子,而是它的前体pre-mRNA,那么怎么变成成熟的mRNA呢,就需要从pre-mRNA中将非编码蛋白质的内含子(intron)切除,然后拼接剩下的编码蛋白质的外显子(exon)。但实际上,在这个过程中,有多种多样的前切和拼接方式,从而产生不同的剪切异构体,也就咱们要说的可变剪切。

常见的可变剪切可以分成6类:

1、外显子跳跃(Exon Skipping)

2、内含子保留(Intron Retention)

3、5'端可变剪接(Alternative 5' splice Site)

4、3'端可变剪接(Alternative 3' splice Site)

5、最后一个外显子可变剪接(Alternative Last Exon)

6、第一个外显子可变剪接(Alternative First Exon)

有的会把5'端可变剪接(Alternative 5' splice Site)和3'端可变剪接(Alternative 3' splice Site)当成一类,因此只有五种可变剪切方式。

可变剪切类型

可变剪切的意义

可变剪切是调节基因表达和产生蛋白组多样性的重要原因,是导致真核生物基因与蛋白质数量差异效果的主要原因。

可变剪切预测软件

比较旧的分析可变剪切的软件主要有SpliceR、SpliceGrapher、ASprofile以及Splicing Express等,它们是基于cufflinks软件的结果,将reads回帖到基因组序列后,根据位置和长度及结构信息,来确定或预测可能的剪切体的类型。目前主流已经不再使用tophat+cufflinks流程了。

CASH软件将可变剪切分为以下几类:

Cassette: cassetteexon, i.e. SE, Skipped exon

Cassette_multi: mutiple adjacent Cassette exons

A5SS: Alternative 5' splice site

A3SS: Alternative 3' splice site

AltStart: Alternative start exon

AltEnd: Alternative end exon

MXE: Mutually exclusive exons

IR: intron retention

关于Cassette说明,参考作者文献说明,之前的研究表明,SRSF10拥有一个保守的RNA识别基序,能够结合AGAGAV或者AAAGACAAA。我们对cassette类型可变剪接中的序列信息进行了分析,发现在三个物种中有一个共同的调控模式。通过更深入的分析后,我们提出了一种SRSF10介导的剪接模型,当外显子具有GA富集的特征时,通常能够与SRSF10具有更高的亲和力,因此当GA富集出现在下游外显子时,会导致cassette外显子的跳跃,而GA富集发生在cassette外显子上时,则会发生该外显子纳入的情况。并且这种调控模式在鸡、小鼠和人类中都高度保守。

目前使用的可变剪切方法简介

比较旧的分析可变剪切的软件主要有SpliceR、SpliceGrapher、ASprofile以及Splicing Express等,它们是基于cufflinks软件的结果,将reads回帖到基因组序列后,根据位置和长度及结构信息,来确定或预测可能的剪切体的类型。目前主流已经不再使用tophat+cufflinks流程了。

目前公司用的主要用的是ASprofile和rmates。ASprofile是一款比较老的分析可变剪切的软件,2013年发布,后期就没有进行维护,而且只能对每个样品进行可变剪切分析,没有差异分析,使用方法可参考博文http://blog.sina.com.cn/s/blog_d67ee9990102xjle.html,官网说明:http://ccb.jhu.edu/software/ASprofile/

rMATS是一款利用RNA-Seq数据分析差异可变剪接的工具,它在MATS(multivariate analysis of transcript

splicing)的基础上针对有生物学重复的情况提出了新的统计模型。模型根据reads比对到不同转录本(是否包含选择性剪接的外显子)的比例来定义剪接位点的inclusion level,并用likelihood-ratio test检验不同组中生物学重复的平均inclusion level的差异显著性来判定差异可变剪接。但是目前在我们集群上运行总是有些项目报错、流程中断,新版本的rMATS对没有生物学重复的不支持,老版的支持没有生物学重复的样品,但是速度较慢。官网:http://rnaseq-mats.sourceforge.net/,使用可参考博文:http://wap.sciencenet.cn/blog-3204459-1120611.html

CASH软件介绍

CASH(Comprehensive alternative splicing hunting)是可视化和用户友好的软件,旨在自我构建AS(可变剪接)位点并检测RNA-Seq数据样本之间的差异AS事件。 CASH包括两个主要阶段:SpliceCons(Splice site Construction)和SpliceDiff(差异AS检测)。通过从RNA-seq数据全面重建AS位点,SpliceCons大大增加了对AS事件的识别,随后,SpliceDiff使用两种组合统计方法来改进差异AS事件的检测。

与之前的ASD程序不同,作者开发了一个名为SpliceCons的新模块,该模块在CASH中实现,并且还对脚本进行了细化以检测差异AS事件。作者建议使用CASH,它现在取代了原始的ASD版本。

通过与Cuffdiff,MISO,DEXSeq和rMATS等已有算法进行比较后发现,无论在有生物学重复还是无生物学重复样本中,CASH都显著提升了样本之间差异可变剪接事件的检测能力,尤其是新的可变剪接事件,验证准确率高达70%!在针对不同测序深度数据的测试中,CASH始终表现出优于其他算法的检测率。即使是在低数据量下,CASH依旧力压其他算法,始终维持着极高的敏感性及特异性。

CASH软件下载

下载链接:https://sourceforge.net/projects/cash-program/

CASH软件安装

CASH软件是免安装的,下载后直接解压使用,版本为cash version 2.2.1

unzipcash_v2.2.1.zip

cdcash_v2.2.1

java –jar cash.jar --help  

注意:cash软件是java软件,依赖java,由于集群的java对其不支持,因此下载了java:jre1.8.0_191进行分析。Java version ≥ 1.8

CASH软件参数说明

cash软件主要参数如下:

Version:

--version 输出版本信息并退出。print version information andquit

GUI:

--GUI 打开GUI交互界面。open the GUI interface

Input: (输入参数)

--Case:prefix1

files 处理组前缀处理组文件,多个样品用逗号分隔。

Filesshould be sorted and indexed case bam files, using comma to seperate files.Index file(bai file) can be absent if parameter "--runSepChr" set toFalse.

bam文件需要经过sorted和建过index,如果参数—runSepChr设为False的话,可以没有bai file文件,可以没有index文件。

justlike --Case:KO /home/user/ko1.bam,/home/user/ko2.sorted.bam

命令示范:--Case:KO /home/user/ko1.bam,/home/user/ko2.sorted.bam

--Control:prefix2

files对照组前缀对照组文件,多个样品用逗号分隔。

    Sameas Case:prefix1其他要求与Case的一样。

justlike --Control:WT /home/user/wt1.bam,/home/user/wt2.sorted.bam

命令示范:--Control:WT /home/user/wt1.bam,/home/user/wt2.sorted.bam

--GTF file.gtf

CASH needs reference gene annotations (eg. gtf/gff file) and RNA-seq data to construct alternative splicing (AS) modelwithin genes

CASH软件需要参考基因组的注释文件,比如gtf或者gff来构建基因的AS模型。

Output:

--OutputoutFilePrefix

outputdirectory and prefix, example: --Output /home/user/myresult

输出文件夹前缀,比如:--Output /home/user/myresult

Options:

--MergePvalA/G, default is G

It is recommend to use the default value(G), while the results showed a poor number is more sensitive. Users can switch G to A and get more specific results。

建议使用默认参数G,如果结果显示的数目较多、敏感性较好,使用者可以将G转换为A以获得更多的特异性结果。

A:arithmetic  weighted  mean of  event-centric  strategy and  exon-centric  strategy Pvalues(more specific)

A:以剪切事件中心策略和外显子中心策略的P值的算术平均值,这个结果会使得结果更具有特异性。

G:geometric weighted mean of event-centric strategy and exon-centric strategyPvalues(more sensitive)

G:以剪切事件中心策略和外显子中心策略的P值的几何平均值,这个结果会使得结果更具有灵敏性。

--CombineTrue/False, default is False

False:if here are several replications, CASH treats them as biological replicates asusual

False:如果这里有多个生物学重复,CASH软件将视为生物学重复。

True:  if here  are  several replications,  CASH  combines case(control)  bam  files to  be  one case(control) big bam file

True:如果这里有多个生物学重复,CASH软件将这几个bam文件合并为一个更大的bam文件进行分析。

--DisplayAllEventTrue/False, default is True

Agene may have several AS events on different exons, CASH can display allevents, or just show only one most significantly event

一个基因可能在不同的外显子上有几个AS事件,CASH可以显示所有事件,或者只显示一个最重要的事件

True:show all splicing event 显示所有的剪切事件

False:show only one most significantly splicing event 显示最显著的几个剪切事件

--StrandSpecificF/R/NONE, default is NONE

whenthe sequence library is strand specific, the parameter is used

当建库方式为特异性建库方式的时候,使用此参数

F:first read of the pair-end reads represent the strand of the fragment, justlike ion proton

F:双链的第一条链代表链的方向,就像Ion Proton测序仪。

R:second read of the pair-end reads represent the strand of the fragment

R:双链的第二条链代表链的方向,就像Ion Proton测序仪。

--SpliceConsTrue/False, default is True

SpliceCons  is used  to construct AS  model  based on  RNA-seq  data and  reference  gene annotations, leading to detection ofnovel AS events in the samples

SpliceCons用于构建基于RNA-seq数据和参考基因注释的AS模型,从而检测样品中的新AS事件。

True:construct AS model based on RNA-seq data and gtf/gff files. The process needsmore time

True:基于RNA-seq数据和gtf / gff文件构建AS模型。这个过程需要更多时间。

False:employ AS model inferred from gtf/gff file

False:从gtf / gff文件中推断AS模型。

--JuncAllSampleint, default is 25

Doesn'tcalculate AS event with the sum of all sample junction reads less thanJuncAllSample

所有样本junction reads数的总和小于JuncAllSample时不算AS事件。

--JuncOneGroupint, default is 10

Doesn'tcalculate AS event with one group of junction reads less than JuncOneGroup

如果某个组的junction reads数少于JuncOneGroup将不算剪切事件。

--minAnchorLen/-Aint, default is 5

Whencounting junction reads, exon-exon junctions spanned by reads with at leastthis many bases on each side

当计算junction reads数和外显子-外显子junctions数是,两端至少有多少个碱基overlab才算。

--minIntronLen/-Iint, default is 25

The gaps between RNA-Seq reads with length > 25bp is considered to be intron

gap和RNA-Seq

reads overlap的长度> 25bp被认为是内含子

--minJuncReadsForNewIso/-Jint, default is 10

Minjunction reads for reconstructing AS site

最少多少junction reads重构剪切位点

--runSepChrTrue/False, default is True

Dueto some species (e.g. Hordeum vulgare) chromosomes with a huge length of basepairs, the java module 'htsjdk(v2.9.0)' can hardly support the index of thechromosomes and to fix the issue, we added this parameter and users can setthis parameter to False, which means CASH run without index files, but it willtake more memory and more computing time.

由于一些物种(例如Hordeum vulgare)染色体具有很长的碱基对,java模块'htsjdk(v2.9.0)'很难支持染色体的索引,为了解决问题,我们添加了这个参数,用户可以将此参数设置为False,这意味着CASH在没有索引文件的情况下运行,但它将占用更多内存和更多计算时间。

--ChrRegionchrId/chrId:startPos-endPos

WhilerunSepChr is True(default), one can set this parameter and CASH will onlycalculate this region.You can set value as chromosome Id like "--ChrRegionchr1" or set a specific region like "--ChrRegion chr1:1-9527"

当runSepChr为True(默认值)时,可以设置此参数,CASH将仅计算此区域。您可以将值设置为染色体ID,如“--ChrRegion chr1”或设置特定区域,如“--ChrRegion chr1:1-9527”。

CASH软件测试

测试命令:

没有生物学重复:cash_v2.2.1/jre1.8.0_191/bin/java-jar -Xmx10g  cash.jar --Case:prefix1../C1/C1.bam --Control:prefix2 ../C2/C2.bam --GTF Gallus_gallus.Gallus_gallus-5.0.90.gtf--Output single_sample

有生物学重复:cash_v2.2.1/jre1.8.0_191/bin/java-jar -Xmx10g  cash.jar --Case:Control../C1/C1.bam,../C2/C2.bam --Control:Treat ../T1/T1.bam,../T2/T2.bam --GTF Gallus_gallus.Gallus_gallus-5.0.90.gtf--Output multiple_samples

注:输入文件为bam文件,这里的bam文件是经过sort过后的bam文件,并建index。

结果说明:

得到两个文件:multiple_samples.ControlvsTreat.alldiff.statistics.txt和multiple_samples.ControlvsTreat.alldiff.txt

multiple_samples.ControlvsTreat.alldiff.statistics.txt文件:

可变剪切统计结果

文件主要展示的可变剪切的统计信息、统计信息中简写的含义和统计显著性意义的阈值,这里为FDR小于0.05。结果显示检测的一共检测到六种可变剪切结果,分别为A5SS、A3SS、AltStart、AltEnd、MXE、IR。

第二个文件是具体的可变剪切信息。文件名为:multiple_samples.ControlvsTreat.alldiff.txt

可变剪切结果文件

CASH软件资源消耗

资源消耗

CASH软件引用文献

[1]    Wu W, Zong J, Wei N, et al. CASH: a constructing comprehensive splice site method for detecting alternative splicing events[J]. Briefings in Bioinformatics, 2018, 19(5): 905-917.(CASH软件文献)

[2]   Zhan X, Qian B, Cao F, et al. An ArabidopsisPWI and RRM motif-containing protein is critical for pre-mRNA splicing and ABAresponses[J]. Nature Communications, 2015, 6(1): 8139-8139.

[3]    Shakhmantsir I,Nayak S,Grant GR,Sehgal A.Spliceosomefactors target timeless (tim) mRNA to control clock protein accumulation andcircadian behavior in Drosophila[J].Elife.2018Dec 5;7. pii: e39821. doi: 10.7554/eLife.39821.

[4]    Lu X , Zhao Z A, Wang X , et al. Whole-transcriptome splicing profiling of E7.5 mouse primarygerm layers reveals frequent alternative promoter usage during mouse earlyembryogenesis[J]. Biology Open, 2018, 7(3):bio032508.

[5]     Dong A , Hieu C, Changsheng L , et al. Isoform Sequencing and State-of-Art Applications forUnravelling Complexity of Plant Transcriptomes[J]. Genes, 2018, 9(1):43-.

[6]     Zhang Y, Gao X,Sun M, et al. The FgSRP1 SR-protein gene is important for plant infection andpre-mRNA processing in Fusarium graminearum[J]. Environmental Microbiology,2017, 19(10): 4065-4079.

[7]     Carazo F, RomeroJ P, Rubio A, et al. Upstream analysis of alternative splicing: a review ofcomputational approaches to predict context-dependent splicing factors[J].Briefings in Bioinformatics, 2018.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容

  • 原文:http://blog.sina.com.cn/s/blog_751bd9440102v72b.html 一...
    简单点lili阅读 4,018评论 0 8
  • 欢迎关注”生信修炼手册”! MISO是一款经典的可变剪切分析工具,和rmats类似,该软件也支持对可变剪切事件进行...
    生信修炼手册阅读 9,280评论 3 19
  • 要求 实现这个功能的软件也很多,还是烦请大家先自己搜索几个教程,入门请统一用htseq-count,对每个样本都会...
    随缘清风_ee55阅读 1,358评论 0 1
  • 通过一个小任务来帮助理解转录组测序的点滴首先,设想手头有一个物种的三个基因ABC,它们的长度分别是10bp、100...
    刘小泽阅读 5,071评论 1 34
  • 秋已至,繁花将尽。田园将芜,胡不归?古人之感慨悠长幽远,惆怅多少陶翁、谢安。 吾等有幸师从向明先生学书,并偷得浮生...
    扎西德勒_4阅读 1,411评论 0 4