利用NextDenovo进行三代组装(四个组装软件结果比较)

一:下载安装

下载地址
https://github.com/Nextomics/NextDenovo/releases/download/v2.1-beta.0/NextDenovo.tgz

**INSTALL**  
`tar -vxzf NextPolish.tgz && cd NextPolish && make`  ## 现在不需要安装了,直接下载解压就可以用了

需要注意的是这个软件运行需要Python2的环境哦。然后安装好了记得加环境。
这次用的是大肠杆菌的一个pacbio数据做的测试。

二:配置文件

1. 配置run.cfg文件

安装好了之后在你的文件夹下面有一个test_data的文件夹,里面有例子,复制过来改一下就ok了。

mkdir ecoli && cd ecoli
cp /path to/NextDenovo/test_data/run.cfg .
vim run.cfg

大致就像这样,里面有些需要改,有些用默认就好。


run.cfg文件

参数解读:

  • job_type 设置运行环境,可以使用(local, sge, pbs等)
  • seed_cutfiles 如果在集群上运行,建议设置为可用的节点数,同时设置correction_options的-p为各个节点可用的核数,保证每个节点只有一个correction任务,减少运行时的内存和IO。 如果local上运行, 建议设置为总可用的核除以correction_options的-p值.
  • parallel_jobs建议设置至少要大于pa_correction。
  • blocksize 是将小于seed_cutfiles的数据拆分成的多个文件时单个文件的大小, 此对于10g以内的数据量, 建议设置小于1g, 避免总的任务数小于parallel_jobs的值。
    测序数据类型相关: 对于PacBio而言,要修改minimap2_options_中的-x ava-ont为-x ava-pb
  • 数据量相关参数: read_cutoff = 1k过滤原始数据中低于1k的read,seed_cutoff = 30k则是选择大于30k以上的数据来矫正。关于seed_cutoff的设置,可以通过~/opt/biosoft/NextDenovo/bin/seq_stat来获取参考值,不建议直接使用默认值,因为改值会受到测序深度和测序长度影响,而且一个不合适的值会显著降低组装质量。对于基因组大于200m以上的物种,-d建议默认。
  • random_round参数,建议设置20-100. 该参数是设置随机组装参数的数量,nextGraph会基于每一套随机参数做一次组装, 避免默认参数效果不好
    ———————————————————————————————————————
    这里用 seq_stat能够根据自己物种大小和预期用于组装的深度确定seed_cutoff。
seq_stat -g 4.8Mb input.fofn > seq_stat
seq_stat结果

所以我这里的seed_cutoff默认为30K就不行了,因为最初的才18K多。

2. 配置input.fofn文件,就是你的输入文件绝对路径

3. 运行程序

$nextDenovo run.cfg
运行完毕

默认参数结果是存放在01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph00, 可以将其复制到当前目录,用于后续的分析。
最终在01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph00的contig长度为4540kb.
但是在01.ctg_graph.sh.work目录下除了ctg_graph00以外,还有其他随机参数的在组装结果。随机参数结果只输出了统计结果,用户如需要输出组装序列,可以修改01_rundir/03.ctg_graph/01.ctg_graph.sh,将里面的-a 0替换成-a 1。
每个目录下都有shell输出,可以挑选基于nextDenovo.sh.e这里面的结果挑选组装指标较好的,再输出序列,比如说比较下N50。

$grep N50 01_rundir/03.ctg_graph/01.ctg_graph.sh.work/ctg_graph*/*.e

默认情况下,最终组装出20条contig。


全部20条contig结果

最后:
我用了四个性价比比较高的三代组装软件对大肠杆菌pacbio数据做了个比较:


结果比较

可以看到在不考虑速度的情况下,flye的长度是最长的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343