寻找R gene三种方法之RGAugury

特别感谢卖萌哥对于R gene的资源分享和指导帮助

参考文献:RGAugury: a pipeline for genome-wide prediction of resistance gene analogs (RGAs) in plants
Resistance gene analogs(RGAs)包括编码NBS的蛋白、受体激酶(receptor-like protein kinases,RLKs)和受体蛋白(receptor-like proteins,RLPs)。受体蛋白与受体激酶主要作为细胞表面的模式识别受体(pattern-recognition receptors,PRRs),对微生物/病原物相关分子模式(Microbe/Pathogen- associated molecular patterns, MAMPs/PAMPs)识别,引起的植物第一层免疫系统——微生物/病原物相关分子模式触发的免疫(MAMP/PAMP-triggered immunity,MTI/PTI)。
R (Resistence) gene主要与植物防御机制中的ETI(Effector-triggered immunity)防御机制有关,其主要功能结构域为NB-ARC(PF00931),与LRR相连发挥识别病原菌,并对其进行防御。根据与R gene相连不同的domain分为不同类型的R gene。

RGA分类


RGAugury pipeline(希望大家的网速都很快,无论是使用conda,还是wget或者axel)

流程的帮助文档:RGAugury Wiki

事先在简书中找到一篇相关解读:文献笔记四十八:在基因组水平上预测植物抗性基因类似物的流程RGAugury(这位老哥帮助我避免踩interproscan的坑)
正如他所言,RGAugury的麻烦主要是在它不仅需要安装多种软件,还需要安装多种依赖perl模块。熟悉生信的人一定会说能用conda安装的软件一定要用conda,conda里的perl也可以用于安装模块。但我在尝试的最后放弃了使用conda的方法,原因主要有
1.初步尝试时一定要弄清你用的是哪个perl,即which perl(细节蛮重要的)
2.Moose和Log::Log4perl两个perl模块十分重要,但我用conda的perl安装Moose模块的时候无法安装(主要还是自己太菜,不懂perl)
3.conda中的pfam_scan.pl似乎与流程中设置好的PFAMDB无法关联起来,导致了报错
Ps:其实安装perl模块直接用cpan install module,安装不成功可能与cpan的设置有关,像PFAMDB可能直接放在conda环境的路径中,并加入环境变量,也许就能使用了,以后再尝试吧

所以最终选择了手动安装软件的方法
(对于sudo用户便捷,所以你可能需要麻烦你的管理员,注意系统位数,有些软件可能也事先也安装过了)
1.BLAST+

# 下载ncbi-blast-2.10.1+-x64-linux.tar.gz
wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.10.1+-x64-linux.tar.gz
tar -zxvf ncbi-blast-2.10.1+-x64-linux.tar.gz -C /your path/ #解压到适当目录(你需要的路径)
#我习惯装好软件就添加到环境变量中,并进行测试。下同。你可以通过echo $PATH查看你的环境变量,选择第一个属于你帐号的路径
vim ~/.bashrc
export PATH=$PATH:/your path/blast/bin #注意软件路径和软件文件夹名称
#保存.bashrc后进行
source ~/.bashrc 

后面软件安装完成后,利用blast任何一个功能进行测试,例如blastn -h会有如下显示,表明运行成功(后面不再演示)。

安装完成测试

2.hmmer3

# 下载ncbi-blast-2.10.1+-x64-linux.tar.gz
wget -c http://eddylab.org/software/hmmer/hmmer-3.3.tar.gz
tar -zxvf hmmer-3.3.tar.gz -C /your path/

3.pfam_scanpfam database

# 下载pfam_scan
wget -c ftp://ftp.ebi.ac.uk/pub/databases/Pfam/Tools/PfamScan.tar.gz
tar -zxvf hmmer-3.3.tar.gz -C /your path/
#下载pfam数据库
wget -c ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz
gunzip Pfam-A.hmm.gz
#解压完成记得初始化
hmmpress Pfam-A.hmm
#文档路径有要求,参照帮助文档
export PFAMDB=/home/user name/database/pfamdb           #to specifiy the hmm pfam-A/B DB path,user name为用户名

4.Phobius 1.01
需要安装在32位环境下
这款软件通过登记信息发送到邮箱进行下载,之后通过ftp上传到服务器中进行解压。

Phobius 1.01.jpg

5.ncoils已经存储在RGAugury中
6.git
Download for Linux and Unix
7.jdk(强烈建议用sudo安装)

#下载合适版本的jdk,注册登录后获得网址
wget -c 
tar -zxvf xxxx.tar.gz
#或者sudo模式安装
sudo apt update
sudo apt install openjdk-8-jdk openjdk-8-jre
#详情可以参照https://tecadmin.net/install-oracle-java-8-ubuntu-via-ppa/

8.interproscan下载合适的版本
建议安装较低版本interproscan,例如interproscan-5.32-71.0interproscan的版本需要和jdk搭配,例如interproscan-5.32-71.0和jdk-,这里是最麻烦的。此外interproscan有9G左右的大小,请耐心等待。
可以参考InterProScan的使用教程

#下载interproscan-5.32-71.0 
wget -c ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.32-71.0/interproscan-5.32-71.0-64-bit.tar.gz
wget -c ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.32-71.0/interproscan-5.32-71.0-64-bit.tar.gz.md5
#下载完成后检查文件完整性
md5sum -c interproscan-5.32-71.0-64-bit.tar.gz.md5
#显示interproscan-5.32-71.0-64-bit.tar.gz:ok则表示文件完整
tar -zxvf interproscan-5.32-71.0-64-bit.tar.gz -C/your path/
#加入环境变量后, 可选择下载panther-data-xx.x.tar.gz压缩包到interproscan-x.xx-xx.0/data/目录下(大小有10G以上)
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-14.1.tar.gz
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-14.1.tar.gz.md5
md5sum -c panther-data-14.1.tar.gz.md5
#panther-data-14.1.tar.gz:ok
tar -zxvf panther-data-11.1.tar.gz
#可选项,看你需要不要Match Lookup Service,因为我是本地化,不想联网操作,因此就会禁止这项操作
vim interproscan-5.24-63.0/interproscan.properties
#去掉下面这行代码
precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup

9.CViT
可视化过程未尝试,有机会的话以后更新
10.perl模块安装
虽然帮助文档里有很多library和module,但我们只需要RGAugury的依赖模块和pfam_scan.pl的依赖模块。
均采用cpan install module就可以快速安装完成(建议在root用户下安装)

cpan insatll Log::Log4perl #这个也可手动安装,详情http://search.cpan.org/~mschilli/
cpan install Moose
cpan install BioPerl

11.下载RGAugury

git clone https://bitbucket.org/yaanlpc/rgaugury.git
chmod 755 *.pl
chmod 755 scoils-ht

汇总下.bashrc或者.bash_profile环境变量设置(假设用户名为xxx)
环境变量的路径名称一定要和软件路径名称对应

export PATH=$PATH:/home/xxx/your path/phobius1.01  # to specify the path of phobius.pl script and binary.

export PATH=$PATH:/home/xxx/your path/hmmer3/bin   # binary path

export PATH=$PATH:/home/xxx/your path/blast/bin    # binary path of blast+ package

export PATH=$PATH:/home/xxx/your path/RGAugury/rgaugury # this package scripts path

export PATH=$PATH:/home/xxx/your path/RGAugury/rgaugury/coils  #the path to scoils-ht, which is a modified version of coils to adapt to RGAugury pipeline.

export PATH=$PATH:/home/xxx/your path/interproscan-x.xx-xx.0    #download latest one as your wish. Do not add the path of "bin" under interproscan directory.

export PATH=$PATH:/home/xxx/your path/PfamScan    #to specify the path for script of pfam_scan.pl

export COILSDIR=/home/xxx/your path/RGAugury/rgaugury/coils # or create a plain file with putting this command only but a directory all user can access and drop it to /etc/profile.d/, file permission changes to 755, otherwise export it to user's profile and point to another user authorized directory

export PERL5LIB=/home/xxx/your path/PfamScan:$PERL5LIB  #perl module for pfam_scan.pl

export PFAMDB=/home/xxx/database/pfamdb           #to specifiy the hmm pfam-A/B DB path

大致样子如下


环境变量汇总

终于可以运行RGAugury试试看了

perl rgaugury/RGAugury.pl -p protein.faa -c 10 -pfx Output
#arguments: 
        -p           protein fasta file
        -n           corresponding cDNA/CDS nucleotide for -p   (optional)
        -g           genome file in fasta format   (optional)
        -gff         a modified gff3-like file, see below format  (optional)
        -c           cpu or threads number, default = 2
        -pfx         prefix for filename, useful for multiple speices input in same folder   (optional)

关于gff文件格式在帮助文档中也有说明。gff文件主要可以进行可视化
最后放下运行成功结果
无论是来自nohup.out还是程序自身的xxx.status.log(xxx为-pfx 文件前缀)


cheering

更多阅读推荐

生信技能树公益视频合辑:学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!
B站链接:https://m.bilibili.com/space/338686099
YouTube链接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
生信工程师入门最佳指南:https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA
学徒培养:https://mp.weixin.qq.com/s/3jw3_PgZXYd7FomxEMxFmw
文献阅读需搜索,推荐文献鸟

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342