2020-08-05 微生物基因组组装

细菌基因组组装

SPAdes:

SPAdes 官方链接

# 使用SPAdes组装细菌基因组
spades.py -o workingdir --careful -1 file_R1.fastq.gz -2 file_R2.fastq.gz -nanopore nano.fastq.gz -t 16 -k 21,33,55,77 -cov-cutoff 20

# 组装质粒
plasmidspades.py -o workingdir --careful -1 file_R1.fastq.gz -2 file_R2.fastq.gz -nanopore nano.fastq.gz -t 16 -k 21,33,55,77 -cov-cutoff 20

当我们有大批PE150数据需要组装时,使用以下代码可以进行批处理

#!/usr/bin/env bash

# 进入PE双末端数据目录
cd <pe数据目录> 

# 创建输出目录
mkdir <genome_contigs> 
ls *.gz | paste - - | while read a b; do echo "spades.py --careful -k 21,33,55,77 /
 --cov-cutoff 20 -1 ${a} -2 ${b} -o /genome_contigs/${a%.1.fa.gz}"; done > spades.sh /
'''
生成可执行脚本
ls *.gz 表示将当前文件夹文件输出到桌面
 | 竖线是linux流程符号,上一步输出,作为下一步输入
paste - - 表示将将要打印的文件份两列显示
while read a b 表示分别读取第一列为变量a, 第二列为变量b
do 是循环的动作
echo 打印的命令,随便量改变,输出一些列执行命令相同但文件不同的代码
 > 将结果定向到spades.sh
${a} ${b} 表示变量,花括号可加可不加,一般选择加,方便区分变量界限
{a%.1.fa.gz} 中括号里面为正则表达式,表示去掉a字符中%号以后的字符
'''
bash spades.sh # 前台执行脚本命令,不可关闭shell
# 或
nohup spades.sh & # 后台执行,可关闭shell,退出远程服务器。
tail nohup.log # 查看脚本执行情况,以防代码有错,停止运行

完成

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。