宏基因组学习记录-质控组装

最近在摸索着学习宏基因组的数据分析,记录一下,方便以后看,哪里有错误希望看到的人可以指出来,如果有幸帮到了你,我将会很开心。
第二篇:宏基因组学习记录-基因预测
一、质控

  1. 原始数据质量信息
    这次用的fastqc,当然还有其他软件,比如fastp进行质控,还可以生成报告,也很方便
# conda 无脑安装
conda install -c bioconda fastqc
# fastqc
fastqc -t 10 -o fastqc sample1_1.fq sample1_2.fq ...
  1. 数据质控
# 下载直接解压使用,网页:http://www.usadellab.org/cms/?page=trimmomatic
wetget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip

# 解压
unzip Trimmomatic-0.39.zip 
# 质控 shell写的小循环
ls raw_data/*fq.gz | while read id
do
echo $id
java -jar /softs_path/Trimmomatic-0.39/trimmomatic-0.39.jar PE -threads 10 ${id%%.*}.R1.fq.gz ${id%%.*}.R2.fq.gz ${id%%.*}.R1.trim.fq ${id%%.*}.R1.unpaired.fq ${id%%.*}.R2.trim.fq ${id%%.*}.R2.unpaired.fq ILLUMINACLIP:~/softs/Trimmomatic-0.39/adapters/TruSeq2-PE.fa:2:30:10 LEADING:10 TRAILING:10 SLIDINGWINDOW:4:20 MINLEN:70;done

3.去宿主

# 下载人基因组文件eg:hg38
wget ftp://ftp.ensembl.org/pub/release-101/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna_rm.primary_assembly.fa.gz
# conda 无脑安装 bowtie2
conda install -c bioconda bowtie2 
# 构建index
bowtie2-build genome.fasta genome
#比对去宿主
ls *trim.fq | while read id
do
echo $id 
bowtie2 -p 10 -x /index_path/genome -1 ${id%%.*}.R1.trim.fq  -2 ${id%%.*}.R2.trim.fq  -S ${id%%.*}.sam 2> ${id%%.*}.bowtie2.log --un-conc-gz ${id%%.*} ;done
# 生成文件sample.1 ,sample.2是去除宿主的序列,重命名
mv sample.1 sample.R1.fq.gz
mv sample.2 sample.R2.fq.gz

最后可以用fastqc看一下clean_reads质量情况

二、组装
组装软件很多,网上也有很多大神总结的各种软件的优缺点,自行查阅,各取所需
我暂时选择了megahit这个软件,资源消耗较少,速度较快,准确性也满足基本需求了。

  1. 软件安装
#当然是选择conda了
conda install -c bioconda megahit 
# 查看软件使用方法
megahit -h

2.合并数据
可以分开单组组装,也可以合并组装,此次选择合并组装

cat *_R1.fq.gz   >  all_reads_R1.fq.gz
cat  *_R2.fq.gz  >  all_reads_R2.fq.gz

3.组装

megahit  -1 all_reads_R1.fq.gz -2 all_reads_R2.fq.gz -o assembly/  --out-prefix assembly -t 10 --min-contig-len 300
#简单介绍一下参数
-1: R1 reads
-2: R2 reads
-o: 结果目录
--out-prefix: 输出结果前缀
-t: 线程数
--min-contig-len: 最小组装长度

4.组装质量评估

#下载,解压,安装
wget https://nchc.dl.sourceforge.net/project/quast/quast-5.0.2.tar.gz
tar -xzf quast-5.0.2.tar.gz
cd quast-5.0.2/
python setup.py install_full
#conda 安装 
conda install -c bioconda quast
quast.py assembly.contigs.fasta -o quast

码字不易,转载请注明出处,谢谢~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353