数据迁移至超算,重温扩增子pipeline

南京又进入一年一度的桑拿天,组里的小服务器也彻底报销了。幸好在此之前已经提前将数据迁移至单位的超算平台上。流程需要重新部署,软件需要重装,环境变量需要重新设置,还要适应超算平台上更规范的任务管理流程。超算平台要求通过qsub脚本提交任务,脚本中要设置语言环境,作业路径,调用资源以及任务名称。之前在小服务器上,直接通过nohup+命令行&提交任务,确实简单粗暴了。现已基本调制妥当,也借机重温下微生物扩增子测序的pipeline。本人生态学专业,全部围绕扩增子数据,暂无接触其他测序数据。

设置任务路径,调用资源及队列

#!/bin/sh -login
#PBS -o /home/test
#PBS -j oe
#PBS -l nodes=1:ppn=10,walltime=999:00:00,mem=30gb
#PBS -N usearch
#PBS -q cpu

cd /home/test

下面是正式的任务命令行

#新建文件夹
mkdir 01_flash/ -p
mkdir 02_cut/ -p
mkdir 03_qc -p
mkdir 04_otu -p

#flash执行序列拼接,seqtk执行反向互补,cutadapt根据引物序列识别目标序列,trimmomatic进行质控

for file in $(ls 00_raw_PE/*_R1.fq.gz | sed 's/00_raw_PE\///')
do
flash 00_raw_PE/${file%_*}_R1.fq.gz 00_raw_PE/${file%_*}_R2.fq.gz -M 200 -o ${file%_*} -d 01_flash/ -O --allow-outies >> 01_flash/${file%_*}.flash.log
seqtk seq -r 01_flash/${file%_*}.extendedFrags.fastq > 01_flash/${file%_*}.extendedFrags.rc.fastq
cat 01_flash/${file%_*}.extendedFrags.fastq 01_flash/${file%_*}.extendedFrags.rc.fastq >  01_flash/${file%_*}.fastq
cutadapt -g GTGCCAGCMGCCGCGGTAA -m 200 01_flash/${file%_*}.fastq -o 02_cut/${file%_*}.reads.cut.fastq --too-short-output reads.short.fastq --untrimmed-output 02_cut/${file%_*}.reads.no.fp.fastq > 02_cut/${file%_*}.cutadapt.report.txt
java -jar ~/programs/Trimmomatic/trimmomatic.jar SE -phred33 02_cut/${file%_*}.reads.cut.fastq 03_qc/${file%_*}.trim.fastq SLIDINGWINDOW:20:20 MINLEN:200
usearch11 -fastq_filter 03_qc/${file%_*}.trim.fastq -fastaout 03_qc/${file%_*}.fa -relabel ${file%_*}. -threads 4
done


cat 03_qc/*.fa > 04_otu/reads.fa 
cd 04_otu

#使用Edgar的denoise算法进行降噪(聚类)
#一般数据量较小时使用32位的免费版usearch11
#(1) for general reads.fa
#usearch11 -fastx_uniques reads.fa -fastaout uniques.fasta -sizeout -relabel Uniq
#usearch11 -unoise3 uniques.fasta -zotus zotus.fasta -tabbedout unoise3.txt -minsize 4
#usearch11 -otutab reads.fa -zotus zotus.fasta -otutabout otu_table.txt -threads 9

#当数据量过大时,则使用64位的付费版usearch7
#(2) for reads.fa larger than 3G
usearch7 -derep_fulllength reads.fa -output uniques.fasta -sizeout -relabel Uniq
usearch11 -unoise3 uniques.fasta -zotus zotus.fasta -tabbedout unoise3.txt -minsize 4
usearch7 --usearch_global reads.fa -db zotus.fasta -strand plus -id 0.97 -uc map.uc
python ~/programs/python_scripts/uc2otutab_c.py map.uc > otu_table.txt

### 物种注释
#(1) 使用Edgar的sintax算法进行注释
#usearch11 -sintax zotus.fasta -db ~/programs/SILVA_138/SILVA_v138_16S.udb -tabbedout sintax -strand both -sintax_cutoff 0.8 -threads 9
#awk '{$2=$3=""; print $0}' sintax > zotus.sintax

#(2) 或者使用RDP classifier进行注释
java -jar ~/programs/RDPTools/classifier.jar classify -c 0.8 -t ~/programs/rdp_classifier_2.13/src/data/classifier/16srrna/rRNAClassifier.properties -f filterbyconf -h zotus.hie -o zotus.classify  zotus.fasta

cat zotus.classify |sed '1d' |sed 's/""//g' |sed 's/\t/\tD_0__/;s/\t/;D_1__/2;s/\t/;D_2__/2;s/\t/;D_3__/2;s/\t/;D_4__/2;s/\t/;D_5__/2;s/\t/;D_6__/2' > zotus.classify.format


# 超算上的hdf5版本需要设置以兼容biom格式文件的处理
export HDF5_USE_FILE_LOCKING='FALSE'

#合并otu丰度表和物种注释表
biom add-metadata -i otu_table.txt --observation-metadata-fp zotus.classify.format -o otu_table_rdp.biom --sc-separated taxonomy --observation-header OTUID,taxonomy

#统计各样本的序列数
biom summarize-table -i otu_table_rdp.biom -o summary.txt

#将biome文件转换为txt文件,进行后续的统计分析可视化操作
biom convert -i otu_table_rdp.biom -o otu_table_rdp.txt  --to-tsv --table-type 'OTU table' --header-key taxonomy
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,635评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,628评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,971评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,986评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,006评论 6 394
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,784评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,475评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,364评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,860评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,008评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,152评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,829评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,490评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,035评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,428评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,127评论 2 356

推荐阅读更多精彩内容