minimap2是我们在基因组分析过程常用的一种工具,但是它的参数很多很复杂,现在我将各项参数的内容和用法进行解析。
Indexing:
-H: 使用同源聚合的k-mer(适用于PacBio数据)
-k INT: k-mer的大小(不超过28)[默认值:15]
-w INT: minimizer窗口大小 [默认值:10]
-I NUM: 每个~NUM输入碱基分割索引 [默认值:4G]
-d FILE: 将索引转储到文件中 []
Mapping:
-f FLOAT: 过滤掉顶部FLOAT比例的重复minimizer [默认值:0.0002]
-g NUM: 如果在INT-bp内没有minimizer,则停止链条延伸 [默认值:5000]
-G NUM: 最大内含子长度(在-xsplice模式下有效;更改-r)[默认值:200k]
-F NUM: 最大片段长度(在-xsr模式下有效或片段模式中)[默认值:800]
-r NUM[,NUM]: 链接/比对带宽和长连接带宽 [默认值:500,20000]
-n INT: 在链条上的最小minimizer数量 [默认值:3]
-m INT: 最小链接分数(匹配碱基减去对数缺口惩罚)[默认值:40]
-X: 跳过自身和双重比对(用于全对全模式)
-p FLOAT: 次要比对分数与主要比对分数的最小比例 [默认值:0.8]
-N INT: 最多保留INT个次要比对 [默认值:5]
Alignment:
-A INT: 匹配得分 [默认值:2]
-B INT: 不匹配的惩罚 [默认值:4]
-O INT[,INT]: 缺口开启惩罚 [默认值:4,24]
-E INT[,INT]: 缺口扩展惩罚;k个长缺口的成本是min{O1+kE1,O2+kE2} [默认值:2,1]
-z INT[,INT]: Z-drop得分和反转Z-drop得分 [默认值:400,200]
-s INT: 最小峰值DP比对得分 [默认值:80]
-u CHAR: 如何找到GT-AG。f:转录本链,b:两条链,n:不匹配GT-AG [默认值:n]
Input/Output:
-a: 以SAM格式输出(默认为PAF)
-o FILE: 将比对结果输出到FILE中 [默认值:stdout]
-L: 在CG标签中写入具有>65535个操作的CIGAR
-R STR: SAM读组行,格式如'@RG\tID:foo\tSM:bar' []
-c: 在PAF中输出CIGAR
--cs[=STR]: 输出cs标签;STR为'short'(如果省略)或'long' [默认值:none]
--MD: 输出MD标签
--eqx: 写入=/X CIGAR操作符
-Y: 对于补充比对,使用软剪辑
-t INT: 线程数 [默认值:3]
-K NUM: 映射的迷你批次大小 [默认值:500M]
--version: 显示版本号
Preset:
-x STR: 预设选项(总是在其他选项之前应用;详见minimap2.1)[]
-map-pb/map-ont: PacBio CLR/Nanopore vs 参考基因组比对
-map-hifi: PacBio HiFi reads vs 参考基因组比对
-ava-pb/ava-ont: PacBio/Nanopore读取重叠
-asm5/asm10/asm20: asm-to-ref比对,适用于约0.1/1/5%的序列差异
-splice/splice:hq: 长读取/Pacbio-CCS剪接比对
-sr: 基因组短读比对
实例(polish 第一步)
#将contig/scaffold序列比对到hifi测序的长序列
minimap2 -ax map-hifi -t 20 groups.asm.fasta .hifi_reads.bam.fasta.gz |samtools view -F 0x4 -b - |samtools sort - -m 2g -@ 20 -o genome.lgs.bam