之前有一批样本坏掉了,DNA跑胶跑出来就不到10Kb,本着样本难得的心态,送去搞了点二代DNA重测序,想着能不能靠着二代数据组装个好点的基因组;又嫌弃illumina太贵,用的华大平台测了100x数据量;最开始组的一坨答辩,后来慢慢改善搞的越来越好了;
先上结果图:

组装质量:N50很高,只是contig数量还是有点多,27万个,不过无伤大雅。

那么这是怎么做的呢?
与三代基因组hifiasm包送到家不一样,二代基因组虽然测序花钱少,但是组装麻烦的一比;二代基因组麻烦就麻烦在工艺上,要进行数据质控,要进行contig组装,还要手动去杂合和进行scaffloding,做完scaffolding还要做gap closing。
于是乎,本着二代省钱的原则,比如说,一批近缘物种,你可能已经测了几个Revio平台HiFi的三代,然后恰好有几个样DNA有点拉跨,那么你可以考虑测点二代,通过这些近缘物种三代的基因组来辅助进行组装。
具体流程如下:
Step1:测序数据的过滤和质控,基因组大小估计
过滤用fastp就行了,参数可以放严一点;质控的话fastqc+multiqc差不多了。
大小估计一般现在用jellyfish或者kmc+genomescope2,组装基因组的话我更喜欢kmergenie
Step2:Contig水平组装
这个方法有很多,华大那边搞过一个SOPAdenovo2,还有一些公认的工具像abyss。内存不够可以考虑用minia组装,省内存,快。
Step3:去杂合,scaffold
redundans pipeline
Step4: 有参scaffold
Ragtag
Step5: 补gap
Gapcloser
后面更新 https://github.com/gotouerina/NGS-assembler