SUPPA2原理
假设我们已经了解了可变剪切类型:传送门,那么我们有许多检测可变剪切的软件,比方说rMAT,miso,SUPPA。而今天重点介绍下SUPPA的基本原理和用法
SUPPA2检测可变剪切是基于转录本定量来判断的,SUPPA2先是利用转录本定量的结果计算每一个样本的PSI(inclusion values)
A PSI value was given according to the ratio of the long form on total form present (short form and long form) to characterize inclusion of exon, differential splice-site choice, intron retention, etc
接下来SUPPA2考虑两个分布(或者说是变化量):一个是每一个生物学重复之间的ΔPSI;另一个是不同条件(处理)之间的ΔPSI
首先考虑生物学重复之间PSI:
- 其中a代表某一个基因的不同转录本
- r代表不同生物学重复
- Rc代表不同处理,如果是两个重复则可用1,2表示
那么每一个生物学重复之间的ΔPSI既是任意两个生物学重复某一个基因的不同PSI的差值,某可变剪切事件相同条件(处理)下各生物学重复的平均PSI在式子中用Erep表示
再来考虑不同条件(处理)之间的PSI:
- 其中a代表某一个基因的不同转录本
- r代表不同生物学重复
- Rc代表不同处理,如果是两个重复则可用1,2表示
那么不同条件(处理)之间的ΔPSI既是任意两个条件(处理)中某一个基因的不同PSI的差值,某可变剪切事件在两个处理下总的平均PSI在式子中用Econd表示
我们可以计算每一个生物学重复之间的PSI与不同条件(处理)之间的平均PSI的差值,计算其最小值,Ei,rep代表第i个重复的PSI值
那么判断差异可变剪切的依据是组间的ΔPSI是否大于组内的ΔPSI
用法
该软件的参考文档:github地址
1.判断可变剪切事件
python3.4 suppa.py generateEvents -i <input-file.gtf> -o <output-file> -f ioe -e <list-of-events>
#-e为可变剪切类型
##SE: Skipping exon (SE)
##SS: Alternative 5' (A5) or 3' (A3) splice sites (generates both)
##MX: Mutually Exclusive (MX) exons
##RI: Retained intron (RI)
##FL: Alternative First (AF) and Last (AL) exons (generates both)
这一步输入GTF文件
得到文件如下:
2.计算PSI
python3.4 suppa.py psiPerIsoform -g <gtf-file> -e <expression-file> -o <output-file>
如果是local AS 事件,输出文件为:
即每一个sample位置上的PSI值
3.计算差异PSI
python3.4 suppa.py diffSplice --method <empirical> --input <ioe-file> --psi <Cond1.psi> <Cond2.psi> --tpm <Cond1_expression-file> <Cond2_expression-file> --area <1000> --lower-bound <0.05> -gc -o <output-file>
对于local AS 事件:
- Cond1_Cond2_dPSI: Event PSI difference (ΔPSI) between Cond1 and Cond2 (ΔPSI = PSI_2 - PSI_1).
- Cond1_Cond2_pvalue: Significance of the difference of PSI between Cond1 and Cond2
4.计算平均PSI
python3.4 suppa.py clusterEvents --dpsi <dpsi-file> --psivec <psivec-file> --sig-threshold <0.05> --eps <0.05> --min-pts <20> --groups <1-3,4-6> -o <output-file>
输出为: