特别感谢卖萌哥对于R gene的资源分享和指导帮助
参考文献:RGAugury: a pipeline for genome-wide prediction of resistance gene analogs (RGAs) in plants
Resistance gene analogs(RGAs)包括编码NBS的蛋白、受体激酶(receptor-like protein kinases,RLKs)和受体蛋白(receptor-like proteins,RLPs)。受体蛋白与受体激酶主要作为细胞表面的模式识别受体(pattern-recognition receptors,PRRs),对微生物/病原物相关分子模式(Microbe/Pathogen- associated molecular patterns, MAMPs/PAMPs)识别,引起的植物第一层免疫系统——微生物/病原物相关分子模式触发的免疫(MAMP/PAMP-triggered immunity,MTI/PTI)。
R (Resistence) gene主要与植物防御机制中的ETI(Effector-triggered immunity)防御机制有关,其主要功能结构域为NB-ARC(PF00931),与LRR相连发挥识别病原菌,并对其进行防御。根据与R gene相连不同的domain分为不同类型的R gene。
RGAugury pipeline(希望大家的网速都很快,无论是使用conda,还是wget或者axel)
流程的帮助文档:RGAugury Wiki
事先在简书中找到一篇相关解读:文献笔记四十八:在基因组水平上预测植物抗性基因类似物的流程RGAugury(这位老哥帮助我避免踩interproscan的坑)
正如他所言,RGAugury的麻烦主要是在它不仅需要安装多种软件,还需要安装多种依赖perl模块。熟悉生信的人一定会说能用conda安装的软件一定要用conda,conda里的perl也可以用于安装模块。但我在尝试的最后放弃了使用conda的方法,原因主要有
1.初步尝试时一定要弄清你用的是哪个perl,即which perl(细节蛮重要的)
2.Moose和Log::Log4perl两个perl模块十分重要,但我用conda的perl安装Moose模块的时候无法安装(主要还是自己太菜,不懂perl)
3.conda中的pfam_scan.pl似乎与流程中设置好的PFAMDB无法关联起来,导致了报错
Ps:其实安装perl模块直接用cpan install module
,安装不成功可能与cpan的设置有关,像PFAMDB可能直接放在conda环境的路径中,并加入环境变量,也许就能使用了,以后再尝试吧
所以最终选择了手动安装软件的方法
(对于sudo用户便捷,所以你可能需要麻烦你的管理员,注意系统位数,有些软件可能也事先也安装过了)
1.BLAST+
# 下载ncbi-blast-2.10.1+-x64-linux.tar.gz
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.10.1+-x64-linux.tar.gz
tar -zxvf ncbi-blast-2.10.1+-x64-linux.tar.gz -C /your path/ #解压到适当目录(你需要的路径)
#我习惯装好软件就添加到环境变量中,并进行测试。下同。你可以通过echo $PATH查看你的环境变量,选择第一个属于你帐号的路径
vim ~/.bashrc
export PATH=$PATH:/your path/blast/bin #注意软件路径和软件文件夹名称
#保存.bashrc后进行
source ~/.bashrc
后面软件安装完成后,利用blast任何一个功能进行测试,例如blastn -h
会有如下显示,表明运行成功(后面不再演示)。
2.hmmer3
# 下载ncbi-blast-2.10.1+-x64-linux.tar.gz
wget -c http://eddylab.org/software/hmmer/hmmer-3.3.tar.gz
tar -zxvf hmmer-3.3.tar.gz -C /your path/
# 下载pfam_scan
wget -c ftp://ftp.ebi.ac.uk/pub/databases/Pfam/Tools/PfamScan.tar.gz
tar -zxvf hmmer-3.3.tar.gz -C /your path/
#下载pfam数据库
wget -c ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz
gunzip Pfam-A.hmm.gz
#解压完成记得初始化
hmmpress Pfam-A.hmm
#文档路径有要求,参照帮助文档
export PFAMDB=/home/user name/database/pfamdb #to specifiy the hmm pfam-A/B DB path,user name为用户名
4.Phobius 1.01
需要安装在32位环境下
这款软件通过登记信息发送到邮箱进行下载,之后通过ftp上传到服务器中进行解压。
5.ncoils已经存储在RGAugury中
6.git
Download for Linux and Unix
7.jdk(强烈建议用sudo安装)
#下载合适版本的jdk,注册登录后获得网址
wget -c
tar -zxvf xxxx.tar.gz
#或者sudo模式安装
sudo apt update
sudo apt install openjdk-8-jdk openjdk-8-jre
#详情可以参照https://tecadmin.net/install-oracle-java-8-ubuntu-via-ppa/
8.interproscan下载合适的版本
建议安装较低版本interproscan,例如interproscan-5.32-71.0
interproscan的版本需要和jdk搭配,例如interproscan-5.32-71.0和jdk-,这里是最麻烦的。此外interproscan有9G左右的大小,请耐心等待。
可以参考InterProScan的使用教程
#下载interproscan-5.32-71.0
wget -c ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.32-71.0/interproscan-5.32-71.0-64-bit.tar.gz
wget -c ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.32-71.0/interproscan-5.32-71.0-64-bit.tar.gz.md5
#下载完成后检查文件完整性
md5sum -c interproscan-5.32-71.0-64-bit.tar.gz.md5
#显示interproscan-5.32-71.0-64-bit.tar.gz:ok则表示文件完整
tar -zxvf interproscan-5.32-71.0-64-bit.tar.gz -C/your path/
#加入环境变量后, 可选择下载panther-data-xx.x.tar.gz压缩包到interproscan-x.xx-xx.0/data/目录下(大小有10G以上)
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-14.1.tar.gz
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-14.1.tar.gz.md5
md5sum -c panther-data-14.1.tar.gz.md5
#panther-data-14.1.tar.gz:ok
tar -zxvf panther-data-11.1.tar.gz
#可选项,看你需要不要Match Lookup Service,因为我是本地化,不想联网操作,因此就会禁止这项操作
vim interproscan-5.24-63.0/interproscan.properties
#去掉下面这行代码
precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup
9.CViT
可视化过程未尝试,有机会的话以后更新
10.perl模块安装
虽然帮助文档里有很多library和module,但我们只需要RGAugury的依赖模块和pfam_scan.pl的依赖模块。
均采用cpan install module
就可以快速安装完成(建议在root用户下安装)
cpan insatll Log::Log4perl #这个也可手动安装,详情http://search.cpan.org/~mschilli/
cpan install Moose
cpan install BioPerl
11.下载RGAugury
git clone https://bitbucket.org/yaanlpc/rgaugury.git
chmod 755 *.pl
chmod 755 scoils-ht
汇总下.bashrc或者.bash_profile环境变量设置(假设用户名为xxx)
环境变量的路径名称一定要和软件路径名称对应
export PATH=$PATH:/home/xxx/your path/phobius1.01 # to specify the path of phobius.pl script and binary.
export PATH=$PATH:/home/xxx/your path/hmmer3/bin # binary path
export PATH=$PATH:/home/xxx/your path/blast/bin # binary path of blast+ package
export PATH=$PATH:/home/xxx/your path/RGAugury/rgaugury # this package scripts path
export PATH=$PATH:/home/xxx/your path/RGAugury/rgaugury/coils #the path to scoils-ht, which is a modified version of coils to adapt to RGAugury pipeline.
export PATH=$PATH:/home/xxx/your path/interproscan-x.xx-xx.0 #download latest one as your wish. Do not add the path of "bin" under interproscan directory.
export PATH=$PATH:/home/xxx/your path/PfamScan #to specify the path for script of pfam_scan.pl
export COILSDIR=/home/xxx/your path/RGAugury/rgaugury/coils # or create a plain file with putting this command only but a directory all user can access and drop it to /etc/profile.d/, file permission changes to 755, otherwise export it to user's profile and point to another user authorized directory
export PERL5LIB=/home/xxx/your path/PfamScan:$PERL5LIB #perl module for pfam_scan.pl
export PFAMDB=/home/xxx/database/pfamdb #to specifiy the hmm pfam-A/B DB path
大致样子如下
终于可以运行RGAugury试试看了
perl rgaugury/RGAugury.pl -p protein.faa -c 10 -pfx Output
#arguments:
-p protein fasta file
-n corresponding cDNA/CDS nucleotide for -p (optional)
-g genome file in fasta format (optional)
-gff a modified gff3-like file, see below format (optional)
-c cpu or threads number, default = 2
-pfx prefix for filename, useful for multiple speices input in same folder (optional)
关于gff文件格式在帮助文档中也有说明。gff文件主要可以进行可视化
最后放下运行成功结果
无论是来自nohup.out还是程序自身的xxx.status.log(xxx为-pfx 文件前缀)
更多阅读推荐
生信技能树公益视频合辑:学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!
B站链接:https://m.bilibili.com/space/338686099
YouTube链接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
生信工程师入门最佳指南:https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA
学徒培养:https://mp.weixin.qq.com/s/3jw3_PgZXYd7FomxEMxFmw
文献阅读需搜索,推荐文献鸟