基因功能注释软件
InterproScan
InterProScan 是 EBI 开发的一个集成了蛋白质结构域和功能位点的数据库,其中把 SWISS- PROT、TrEMBL、PROTSITE、PRINTS、PFAM、ProDom 等数据库提供的蛋白质序列中的各种局域模式,如结构域、motif 等信息统一起来,提供了一个较为全面的分析工具。
软件安装
下载安装包和panther(数据库文件)后解压缩,注意将panther文件放入到安装包解压缩后的data文件夹下,同时注意校验md5值脚本运行
可以是网络版运行,这里讲本地脚本运行
# Java version 1.8 or above is required to run InterProScan.
./interproscan/interproscan-5.17-56.0/interproscan -t n -i ./M_1.fa -f TSV -b ./Annotation/M_1 -T ./Annotation/temp -dp
###主要参数说明
# -t seqtype,可选dna/rna (n)or protein (p),默认是蛋白序列
# -i 输入文件,如fasta文件
# -f 输出文件格式,TSV, XML, GFF3, HTML and SVG,默认TSV
# -b 输出目录
# -T 临时文件存放目录
# -dp 禁用lookup service,所有运算在本地进行
- 结果说明
得到一个tsv文件(tab分割)
PARG-007/2090/BMS1-001/700 081238a3dd88fc74b263bd42fce55b71 1680 PANTHER PTHR12858 610 912 0.0 13-06-2018
PARG-007/2090/BMS1-001/700 081238a3dd88fc74b263bd42fce55b71 1680 PANTHER PTHR12858 1055 1672 0.0 13-06-2018
PARG-007/2090/BMS1-001/700 081238a3dd88fc74b263bd42fce55b71 1680 Pfam PF04950 40S ribosome biogenesis protein Tsr1 and BMS1 C-terminal 1216 1502 6.1E-96 T 13-06-2018
共10列信息,每列分别对应:序列ID,-,序列长度,比对数据库,目标序列ID,目标序列描述,其实终止位置,比对得分,时间
提取第一列和三到9列,加表头,展示如下
Sequence_Accession Sequence_Length Analysis_Database Signature_Accession Signature_Description Start_location Stop_location Score
PARG-007/2090/BMS1-001/700 1680 PANTHER PTHR12858 610 912 0.0
PARG-007/2090/BMS1-001/700 1680 PANTHER PTHR12858 1055 1672 0.0
PARG-007/2090/BMS1-001/700 1680 Pfam PF04950 40S ribosome biogenesis protein Tsr1 and BMS1 C-terminal 1216 1502 6.1E-96
PARG-007/2090/BMS1-001/700 1680 Pfam PF08142 AARP2CN (NUC121) domain 629 714 5.1E-31