一.Minia简介
基因组组装一般分为三个水平,contig, scaffold和chromosomes。contig表示从大规模测序得到的短读(reads)中找到的一致性序列,组装的第一步就是从短片段(pair-end)文库中组装出contig。进一步基于不同长度的大片段(mate-pair)文库,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口(gap,用N表示),这一步会得到scaffolds, 就相当于super-contigs和meta-contigs。最后基于遗传图谱或光学图谱或者Hi-C技术,将scaffold合并调整,形成染色体级别的组装(chromosome).
目前二代测序组装基因组的工具的核心基础,是基于De Bruijn graphs法,包扩velvet, Soapdenovo, ABYSS及Minia等。Minia是内存资源最省的工具,其精确度和连续性与其他基因de Bruijn图的组装工具(如Velvet)相似,输出是一组contigs。在台式电脑上组装人类基因组contig居然只要5.7G的RAM,运行23小时,简直难以相信。
Minia软件是基于de Bruijn图原理的短序列组装工具,优于以前的ABySS和SOAPdenovo,关键是速度非常快,十几分钟就OK了,不消耗计算机资源,所以这里就选择它啦。
二.Mina下载安装及运行
下载及安装
下载地址:https://github.com/GATB/minia
下载后tar-zxvf *.tar.gz解压后,通过cmake进行编译后就能使用。
脚本:
参数解释:
用到了两个部分的参数设置:
-in data.list 记录了数据存放的位置及数据名称
--nb-cores: number of cores [default '0']
结果:
圈红的文件为我们要的初步组装的基因组序列文件, 共有44905595条序列。
Unitigs:
Minia will also output unitigs, in the FASTA format. They correspond to non-branching paths in the de Bruijn graph prior to any graph simplication. File:[prefix].unitigs.fa.
也就是在构建de Bruijn图时,图的非分支路径表示的字符串,也称为unitigs。
三.使用prinseq组装序列评估
下载地址https://sourceforge.net/projects/prinseq/
tar -zxvf prinseq-lite-0.20.4.tar.gz
mv prinseq-lite-0.20.4 prinseq
perl prinseq-lite.pl -verbose -fasta
/public/home/lvqiang/hae_long/denovo/survey/contig_minia/minia_k35.contigs.fa
-stats_all
四.结果:
五.报错信息:
一开始我在-in 时 直接指定了测序的R1/R2端fq.gz文件,结果总是报错,错误信息如下:
Minia 3, git commit b55a246
ERROR: Unknown parameter '
后来发现,对minia而言,双端序列文件属于多个文件了,需要写一个txt文件记录多个文件的信息,路径和文件名。
我们看一下minia的manaul手册上的描述:
https://github.com/GATB/minia/raw/master/doc/manual.pdf
FASTA/FASTQ
Minia assembles any type of Illumina reads, given in the FASTA or FASTQ format. Giving paired or mate-pairs reads as input is OK, but keep in mind that Minia won't use pairing information.
Multipe Files
Minia can assemble multiple input _les. Just create a text _le containing the list of read _les, one _le name per line, and pass this list as the _rst parameter of Minia (instead of a FASTA/FASTQ _le). Therefore the parameter input_file can be either (i) the read _le itself (FASTA/FASTQ/compressed),or (ii) a _le containing a list of _le names.
本文使用 文章同步助手 同步