宏基因组学习记录-质控组装

最近在摸索着学习宏基因组的数据分析,记录一下,方便以后看,哪里有错误希望看到的人可以指出来,如果有幸帮到了你,我将会很开心。
第二篇:宏基因组学习记录-基因预测
一、质控

  1. 原始数据质量信息
    这次用的fastqc,当然还有其他软件,比如fastp进行质控,还可以生成报告,也很方便
# conda 无脑安装
conda install -c bioconda fastqc
# fastqc
fastqc -t 10 -o fastqc sample1_1.fq sample1_2.fq ...
  1. 数据质控
# 下载直接解压使用,网页:http://www.usadellab.org/cms/?page=trimmomatic
wetget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip

# 解压
unzip Trimmomatic-0.39.zip 
# 质控 shell写的小循环
ls raw_data/*fq.gz | while read id
do
echo $id
java -jar /softs_path/Trimmomatic-0.39/trimmomatic-0.39.jar PE -threads 10 ${id%%.*}.R1.fq.gz ${id%%.*}.R2.fq.gz ${id%%.*}.R1.trim.fq ${id%%.*}.R1.unpaired.fq ${id%%.*}.R2.trim.fq ${id%%.*}.R2.unpaired.fq ILLUMINACLIP:~/softs/Trimmomatic-0.39/adapters/TruSeq2-PE.fa:2:30:10 LEADING:10 TRAILING:10 SLIDINGWINDOW:4:20 MINLEN:70;done

3.去宿主

# 下载人基因组文件eg:hg38
wget ftp://ftp.ensembl.org/pub/release-101/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna_rm.primary_assembly.fa.gz
# conda 无脑安装 bowtie2
conda install -c bioconda bowtie2 
# 构建index
bowtie2-build genome.fasta genome
#比对去宿主
ls *trim.fq | while read id
do
echo $id 
bowtie2 -p 10 -x /index_path/genome -1 ${id%%.*}.R1.trim.fq  -2 ${id%%.*}.R2.trim.fq  -S ${id%%.*}.sam 2> ${id%%.*}.bowtie2.log --un-conc-gz ${id%%.*} ;done
# 生成文件sample.1 ,sample.2是去除宿主的序列,重命名
mv sample.1 sample.R1.fq.gz
mv sample.2 sample.R2.fq.gz

最后可以用fastqc看一下clean_reads质量情况

二、组装
组装软件很多,网上也有很多大神总结的各种软件的优缺点,自行查阅,各取所需
我暂时选择了megahit这个软件,资源消耗较少,速度较快,准确性也满足基本需求了。

  1. 软件安装
#当然是选择conda了
conda install -c bioconda megahit 
# 查看软件使用方法
megahit -h

2.合并数据
可以分开单组组装,也可以合并组装,此次选择合并组装

cat *_R1.fq.gz   >  all_reads_R1.fq.gz
cat  *_R2.fq.gz  >  all_reads_R2.fq.gz

3.组装

megahit  -1 all_reads_R1.fq.gz -2 all_reads_R2.fq.gz -o assembly/  --out-prefix assembly -t 10 --min-contig-len 300
#简单介绍一下参数
-1: R1 reads
-2: R2 reads
-o: 结果目录
--out-prefix: 输出结果前缀
-t: 线程数
--min-contig-len: 最小组装长度

4.组装质量评估

#下载,解压,安装
wget https://nchc.dl.sourceforge.net/project/quast/quast-5.0.2.tar.gz
tar -xzf quast-5.0.2.tar.gz
cd quast-5.0.2/
python setup.py install_full
#conda 安装 
conda install -c bioconda quast
quast.py assembly.contigs.fasta -o quast

码字不易,转载请注明出处,谢谢~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。