在这个演示中,我们将探索如何从一组分离的基因组序列中快速确定泛基因组。这个演示依赖于两个软件,Prokka和Roary,所以如果你最终发表了用这些工具获得的结果,请记住引用它们
Prokka:快速原核基因组注释https://github.com/tseemann/prokka/blob/master/README.md
全基因组注释是在一组基因组DNA序列中识别感兴趣的特征,并用有用的信息标记它们的过程。Prokka是一个软件工具,可以快速注释细菌,古细菌和病毒基因组,并产生符合标准的输出文件。
使用ubuntu进行安装
sudo apt-get install libdatetime-perl libxml-simple-perl libdigest-md5-perl git default-jre bioperl
sudo cpan Bio::Perl
git clone https://github.com/tseemann/prokka.git $HOME/prokka
$HOME/prokka/bin/prokka --setupdb
出现prokka needs makeblastdb 2.2 or higher. please upgrade and try again
先创建一个conda小环境,这里创建名为prokka的小环境,然后再在先环境中安装Prokka
conda create -n prokka创建环境
conda activate prokka激活环境
conda deactivate退出环境
conda install -c bioconda prokka在prokka这个环境里安装prokka
检查是否安装成功
输入prokka,它应该会输出帮助屏幕。
输入prokka——version,您应该看到类似prokka 1的输出。
输入prokka——listdb,它将显示它安装了哪些数据库来使用。
prokka genomic.fna --quiet --force --outdir genomic.prokka --prefix genomic --locustag genomic
prokka FDAARGOS_615.fna --quiet --force --outdir FDAARGOS_615.prokka --prefix FDAARGOS_615 --locustag FDAARGOS_615
genomic是从NCBI上下载的genbank序列(.fna)
ctrl+z是停止运行
ls是显示目标列表
将我从NCBI上下载的基因组序列放到一个路径里,在linux系统下设置一个路径的方法:mkdir fna
在可以输入ls查看是否有fna
cd fna
prokka FDAARGOS_615.fna --quiet --force --outdir FDAARGOS_615.prokka --prefix FDAARGOS_615 --locustag FDAARGOS_615
Roary-泛基因组管道
Roary是一个高速独立的泛基因组管道,它采用GFF3格式的注释汇编(由Prokka (Seemann, 2014)生产)并计算泛基因组。使用标准的台式电脑,它可以分析数千个样本的数据集,这是现有方法在计算上不可行的,而不会影响结果的质量。使用1gbRAM和单个处理器,可以在1小时内分析128个样本。使用现有方法执行此分析将花费数周时间和数百GB的RAM。Roary不是用于元基因组学或比较极其多样化的基因组集。
以GFF3格式带注释的程序集并计算泛基因组。
conda create -n roary
conda activate roary激活环境
conda deactivate关闭环境
conda install -c"bioconda/label/cf201901"roary
https://blog.csdn.net/m0_70166478/article/details/131028790
安装:使用conda安装
conda config --add channels r
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda
conda install roary
下载很慢 总是失败
conda install -c"bioconda/label/cf201901"roary
https://blog.csdn.net/m0_70166478/article/details/131028790
将prokka中的.gff文件放入到一个新的文件夹里,放到base里
cd bacteroides.gff
nohup roary -e --mafft -p 4 -r -t 11 -i 90 -cd 100 *.gff &
top可以查看运行过程
q