最近在摸索着学习宏基因组的数据分析,记录一下,方便以后看,哪里有错误希望看到的人可以指出来,如果有幸帮到了你,我将会很开心。
第二篇:宏基因组学习记录-基因预测
一、质控
- 原始数据质量信息
这次用的fastqc,当然还有其他软件,比如fastp进行质控,还可以生成报告,也很方便
# conda 无脑安装
conda install -c bioconda fastqc
# fastqc
fastqc -t 10 -o fastqc sample1_1.fq sample1_2.fq ...
- 数据质控
# 下载直接解压使用,网页:http://www.usadellab.org/cms/?page=trimmomatic
wetget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip
# 解压
unzip Trimmomatic-0.39.zip
# 质控 shell写的小循环
ls raw_data/*fq.gz | while read id
do
echo $id
java -jar /softs_path/Trimmomatic-0.39/trimmomatic-0.39.jar PE -threads 10 ${id%%.*}.R1.fq.gz ${id%%.*}.R2.fq.gz ${id%%.*}.R1.trim.fq ${id%%.*}.R1.unpaired.fq ${id%%.*}.R2.trim.fq ${id%%.*}.R2.unpaired.fq ILLUMINACLIP:~/softs/Trimmomatic-0.39/adapters/TruSeq2-PE.fa:2:30:10 LEADING:10 TRAILING:10 SLIDINGWINDOW:4:20 MINLEN:70;done
3.去宿主
# 下载人基因组文件eg:hg38
wget ftp://ftp.ensembl.org/pub/release-101/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna_rm.primary_assembly.fa.gz
# conda 无脑安装 bowtie2
conda install -c bioconda bowtie2
# 构建index
bowtie2-build genome.fasta genome
#比对去宿主
ls *trim.fq | while read id
do
echo $id
bowtie2 -p 10 -x /index_path/genome -1 ${id%%.*}.R1.trim.fq -2 ${id%%.*}.R2.trim.fq -S ${id%%.*}.sam 2> ${id%%.*}.bowtie2.log --un-conc-gz ${id%%.*} ;done
# 生成文件sample.1 ,sample.2是去除宿主的序列,重命名
mv sample.1 sample.R1.fq.gz
mv sample.2 sample.R2.fq.gz
最后可以用fastqc看一下clean_reads质量情况
二、组装
组装软件很多,网上也有很多大神总结的各种软件的优缺点,自行查阅,各取所需
我暂时选择了megahit这个软件,资源消耗较少,速度较快,准确性也满足基本需求了。
- 软件安装
#当然是选择conda了
conda install -c bioconda megahit
# 查看软件使用方法
megahit -h
2.合并数据
可以分开单组组装,也可以合并组装,此次选择合并组装
cat *_R1.fq.gz > all_reads_R1.fq.gz
cat *_R2.fq.gz > all_reads_R2.fq.gz
3.组装
megahit -1 all_reads_R1.fq.gz -2 all_reads_R2.fq.gz -o assembly/ --out-prefix assembly -t 10 --min-contig-len 300
#简单介绍一下参数
-1: R1 reads
-2: R2 reads
-o: 结果目录
--out-prefix: 输出结果前缀
-t: 线程数
--min-contig-len: 最小组装长度
4.组装质量评估
#下载,解压,安装
wget https://nchc.dl.sourceforge.net/project/quast/quast-5.0.2.tar.gz
tar -xzf quast-5.0.2.tar.gz
cd quast-5.0.2/
python setup.py install_full
#conda 安装
conda install -c bioconda quast
quast.py assembly.contigs.fasta -o quast
码字不易,转载请注明出处,谢谢~