生信步骤|EffectorP批量预测病原物效应子

EffectorP软件利用机器学习原理,通过事先收集已知的效应子制备训练集,从而实现病原真菌和卵菌的效应子预测[1]

EffectorP功能示意

EffectorP发展史[2]
1.0版本最初在16年发表于NEW PHYTOLOGIST,实现了机器学习初步预测效应子。
2.0版本在18年发表于MPP,采用了更大的训练集和模型集成的方法,准确度更高。
3.0版本在22年发表于MPMI,是目前最新的版本。其实现了效应子的空间定位预测,同时新增了对卵菌效应子的预测。

EffectorP正负训练集预测原理

EffectorP3.0正训练集采用64个质外体效应子(50个真菌效应子,14个卵菌效应子)和112个胞质效应子(77真菌,35卵菌)构成。负训练集采用五种不太可能成为effectors的蛋白作为指标。正负训练集中的同源重复蛋白皆被去除。EffectorP3.0通过构建已有效应子数据库,训练机器学习模型,实现效应子预测。同时推断效应子的定位信息。 EffectorP也有在线网站:https://effectorp.csiro.au/ 对代码不感冒的小伙伴可以参考此网页。


0.下载并安装EffectorP

我们首先进入EffectorP官网下载最新版本软件:

$ git clone https://github.com/JanaSperschneider/EffectorP-3.0.git

EffectorP的运行需要Python3环境和WEKA软件3.8.4版本。需要我们提前在服务器上配置好。新建python3环境可以用conda实现。

#新建python3环境
$ conda create -y -n effector python=3
$ conda activate effector

#配置WEKA3.8.4,简单解压即可。
$ cd EffectorP-3.0-main && unzip weka-3-8-4.zip

通过软件自带的蛋白序列测试数据Effectors.fasta,测试是否运行顺利:

$ python EffectorP.py -i Effectors.fasta
#若成功运行则会在屏幕输出预测结果

我们可以参考官网给出的结果示例:

python EffectorP.py -i Effectors.fasta
-----------------

EffectorP 3.0 is running for 9 proteins given in FASTA file Effectors.fasta

Ensemble classification
25 percent done...
50 percent done...
75 percent done...
All done.

# Identifier                                    Cytoplasmic effector    Apoplastic effector     Non-effector            Prediction
AvrM Melampsora lini                            Y (1.0)                 -                       -                       Cytoplasmic effector
Avr1-CO39 Magnaporthe oryzae                    Y (0.945)               Y (0.667)               -                       Cytoplasmic/apoplastic effector
ToxA Parastagonospora nodorum                   Y (0.551)               Y (0.767)               -                       Apoplastic/cytoplasmic effector
AVR3a Phytophthora infestans                    Y (0.985)               -                       -                       Cytoplasmic effector
Pit2 Ustilago maydis                            Y (0.779)               -                       -                       Cytoplasmic effector
Zt6 Zymoseptoria tritici                        -                       Y (0.944)               -                       Apoplastic effector
INF1 Phytophthora infestans                     -                       Y (0.837)               -                       Apoplastic effector
Zinc transporter 3 Arabidopsis thaliana         -                       -                       Y (0.737)               Non-effector
GPI-anchored protein 13 Candida albicans        -                       -                       Y (0.708)               Non-effector

-----------------
9 proteins were provided as input in the following file: Effectors.fasta
-----------------
Number of predicted effectors: 7
Number of predicted cytoplasmic effectors: 4
Number of predicted apoplastic effectors: 3
-----------------
77.8 percent are predicted effectors.
44.4 percent are predicted cytoplasmic effectors.
33.3 percent are predicted apoplastic effectors.
-----------------

可见,EffectorP非常直观地给出了各个蛋白的预测类型(是/否为效应子)以及这些蛋白可能存在的细胞位置!

下面我们将采用发表于NCBI的稻瘟菌RNA-seq作为示例数据,执行批量预测效应子的操作。稻瘟菌RNA-seq的sra编号分别为SRR081552,SRR081553,SRR081554,SRR081555,SRR081556

1.批量下载及解压sra示例数据

首先将示例数据的sra序号存放到新的文本文件sra.txt中,执行下载和批量解压操作。

$ vim sra.txt
-----
SRR081552
SRR081553
SRR081554
SRR081555
SRR081556
-----
#批量下载sra.txt中的数据
$ prefetch --option-file sra.txt

下载后的SRR文件需要进一步解压才能得到fastq文件:

#构建批量解压脚本
$ vim step1_fastdump.sh
----------
#!/bin/sh
for i in `tail -n+1 sra.txt|cut -f1`;do
fastq-dump ${i} --split-3 --gzip -O ./
done
---------

#执行批量解压处理
$ sh step1_fastdump.sh

2.批量进行RNAseq数据的回比

将得到的双端测序数据/单端测序数据回比到参考基因组上,通过stringtie提取转录本cds序列。示例数据为双端测序数据,故采用双端测序数据的回比流程,此处串联成了批量执行脚本。
针对双端测序的批量执行脚本。

#构建批量处理脚本
$ vim step2_hisat2_pair.sh
----------
#!/bin/bash
for i in `tail -n+1 sra.txt|cut -f1`;do
  {
        hisat2 -p 8 --dta --no-mixed --no-discordant  -x 70-15.BAC.fa -1 ${i}_1.fastq.cleandata.gz -2 ${i}_2.fastq.cleandata.gz --no-unal -S ${i}.sam 2>${i}.summary.txt
        samtools view -bS ${i}.sam -o ${i}.bam
        samtools sort ${i}.bam ${i}.sorted.bam #注意产生的是SRR081556.sorted.bam.bam
        stringtie ${i}.sorted.bam.bam -p 20 -o ${i}.gtf
        gffread -w ${i}.fa -g 70-15.BAC.fa ${i}.gtf
  }
done
---------

#批量处理
$ sh step2_hisat2_pair.sh

针对单端测序的批量执行脚本。

#构建批量处理脚本
$ vim step2_hisat2_single.sh
----------
#!/bin/bash
for i in `tail -n+1 sra.txt|cut -f1`;do
  {
        hisat2 -p 8 --dta --no-mixed --no-discordant  -x 70-15.BAC.fa -U ${i}.fastq.cleandata.gz --no-unal -S ${i}.sam 2>${i}.summary.txt
        samtools view -bS ${i}.sam -o ${i}.bam
        samtools sort ${i}.bam -o ${i}.sorted.bam #注意产生的是SRR081556.sorted.bam.bam
        stringtie ${i}.sorted.bam -p 20 -o ${i}.gtf
        gffread -w ${i}.fa -g 70-15.BAC.fa ${i}.gtf
  }
done
----------

#执行批量处理
$ sh step2_hisat2_single.sh

3.蛋白质翻译和过滤

对回比上的cds序列进行翻译,并筛选100个AA以上的氨基酸作为候选目标。

#构建批量处理脚本
$ vim step3_translate.sh
----------
#!/bin/bash
for i in `tail -n+1 sra.txt|cut -f1`;do
  {
        seqkit translate ${i}.fa --trim > ${i}.pro.fa
        seqkit seq -m 100 -g ${i}.pro.fa > ${i}.pro.filter.fa
  }
done
----------

#批量处理
$ sh step3_translate.sh

4.效应子预测

最后一步,对所有候选的目标蛋白进行效应子预测。

#构建批量处理脚本
$ vim step4_effectorP.sh
----------
#!/bin/bash
for i in `tail -n+1 sra.txt|cut -f1`;do
  {
        python /mnt/zhou/hangyuan/biosoft/EffectorP-3.0-main/EffectorP.py -i ${i}.pro.filter.fa > ${i}.predict_effector.txt
  }
done
----------

#批量处理
$ sh step4_effectorP.sh

执行后完上述所有代码后,得到的预测结果文件会分别保存在以.predict_effector.txt为结尾的文本文件中。打开即可查看各个RNAseq数据的预测结果。


参考信息:

  1. EffectorP Github:https://github.com/JanaSperschneider/EffectorP-3.0
  2. Sperschneider J, Dodds P. EffectorP 3.0: prediction of apoplastic and cytoplasmic effectors in fungi and oomycetes. Mol Plant Microbe Interact. 2021.doi: 10.1094/MPMI-08-21-0201-R
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352

推荐阅读更多精彩内容