InParanoid 是一个用于寻找直系同源基因(Orthologs)的计算机程序,其目标是发现不同物种之间具有相似功能的基因。
软件下载安装:
git clone https://bitbucket.org/sonnhammergroup/inparanoid.git
或者
wget https://bitbucket.org/sonnhammergroup/inparanoid/get/d0690ac396ac.zip
在运行的时候,系统有报错,报错内容为:
Can't locate Parallel/ForkManager.pm in @INC (you may need to install the Parallel::ForkManager module) (@INC contains: /build/Cellar/anaconda2/lib/site_perl/5.26.2/x86_64-linux-thread-multi /build/Cellar/anaconda2/lib/site_perl/5.26.2 /build/Cellar/anaconda2/lib/5.26.2/x86_64-linux-thread-multi /build/Cellar/anaconda2/lib/5.26.2 .) at inparanoid.pl line 116.BEGIN failed--compilation aborted at inparanoid.pl line 116.
缺少 Parallel::ForkManager 模块。
下载安装 perl 的 Parallel::ForkManager 模块:
wget https://cpan.metacpan.org/authors/id/Y/YA/YANICK/Parallel-ForkManager-2.02.tar.gz
tar zxvf Parallel-ForkManager-2.02.tar.gz
perl MANIFEST INSTALL_BASE=/home/xx/
make
make install
将路径添加到 ~/.bashrc 中的环境变量:
export PERL5LIB=/home/xx/lib/perl5:$PERL5LIB
就 ok 了。
环境依赖
软件的运行需要提前安装好 DIAMOND 和 BLAST。
## 安装 DIAMOND
wget http://github.com/bbuchfink/diamond/releases/download/v2.0.8/diamond-linux64.tar.gz
tar xzf diamond-linux64.tar.gz
## 高版本的软件需要 GLIBC_2.17,系统上没有该版本,低版本的软件没有这个问题。
## 安装 BLAST
wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy.NOTSUPPORTED/2.2.18/blast-2.2.18-x64-linux.tar.gz
tar xvfz blast-2.2.18-x64-linux.tar.gz
软件运行
## 运行示例文件,全部使用默认参数
perl inparanoid.pl -input-dir ./testInput/
可选参数:
- f1 物种 A 的蛋白质序列的 FASTA 文件。
- f2 物种 B 的蛋白质序列的 FASTA 文件。
- outgroup 作为外类群的物种 C 的蛋白质序列的 FASTA 文件(可选,默认无).
- input-dir 包含多个物种蛋白质序列的 FASTA 文件的目录。将运行所有物种之间的比对。如果使用了此选项,则将 -f1 和 -f2 留空。
- out-dir 指定输出文件的目录.
- seq-tool 用于序列相似性比对的工具。可选项为 Diamond 或 Blast(默认为 Diamond)。
- 2pass 运行两遍比对策略。不适用于 Diamond,但推荐用于 Blast(默认为 False)。
- bootstrap 运行引导法以估计正交基因的置信度(默认为 False)。
- seedscore 计算 seedscore 以估计正交基因的置信度(默认为 False)。
- score-cutoff 设置位分数阈值。任何低于此分数的匹配将被忽略(默认为 40)。
- seq-cutoff 设置序列重叠阈值。匹配区域应至少覆盖较长序列的此部分。匹配区域是从第一个片段的开始到最后一个片段的结束(默认为 0.5)。
- seg-cutoff 设置片段覆盖率阈值。匹配片段必须覆盖较长序列的此部分(默认为 0.25)。
- conf-cutoff 置信度阈值。在这个置信度或更高的情况下,将包括内源同源基因。默认值为 0.05。
- grp-cutoff 组重叠阈值。如果一个组中的正交基因在另一个组中的置信度超过此值,那么这两个组将被合并。默认值为 0.5。
- sensitivity Diamond 的敏感度设置。Diamond 提供了多种敏感度模式,可以根据具体需求选择。可选项包括 mid-sensitive(中等敏感度)、sensitive(敏感度)、more-sensitive(更高敏感度)、very-sensitive(非常敏感度)和 ultra-sensitive(超敏感度)。默认值为 very-sensitive。
结果文件
SQLtable 文件以制表符分割,每行是一个蛋白序列,每一列内容分别是:
Group-id Score Species Confidence-score Protein-name
序列分析原始文件:
ProteinA ProteinB Score LengthA LengthB Length-MatchingRegionA Length-MatchingRegionB Total-Length-of-MatchA Total-Length-of-MatchB Location-of-Matches