评估组装中的污染

##选取部分组装结果
##bwa把原始数据比对到组装结果上,samtools比对排序
bwa index -p ref part.genome.fa
cat sample.list |while read a;do echo "bwa mem -t 8 -M ref R1.fastq.gz R2.fastq.gz -R \"@RG\tID:XX\tPL:ILLUMINA\tLB:$a\tSM:XX\" 2>$a.bwamem.log |samtools sort -@ 8 -T /XXX/tmp/$a - >$a.sorted.bam &";done >run.bwa.sh
##比对结果去Duplicates
awk_2 run.bwa.sh|sed 's/^>//;s/.sorted.bam//'|while read a;do echo "java -Xmx100g -jar /XXX/picard.jar MarkDuplicates TMP_DIR=/XXX/tmp MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=800 INPUT=$a.sorted.bam OUTPUT=$a.sorted.dedup.bam METRICS_FILE=$a.sorted.dedup.metrics REMOVE_DUPLICATES=true ASSUME_SORTED=true &>$a.dedup.log && echo "$a.sorted.bam done" && rm $a.sorted.bam";done >run.dedup.sh
##写脚本算出part.genome.fa各条contig下特定bin(例:2000bp)下的深度,gc深度
##写脚本将part.genome.fa序列分成特定bin长度的序列subseq.fa,比对nt数据库,取tophit
##写脚本整合结果,subseq.fa的depth,GC content,及Taxon
##写脚本可视化
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容