有参二代重测序数据组装高质量基因组

之前有一批样本坏掉了，DNA跑胶跑出来就不到10Kb，本着样本难得的心态，送去搞了点二代DNA重测序，想着能不能靠着二代数据组装个好点的基因组；又嫌弃illumina太贵，用的华大平台测了100x数据量；最开始组的一坨答辩，后来慢慢改善搞的越来越好了；

先上结果图：

BUSC评分 S+D=98.31%

组装质量：N50很高，只是contig数量还是有点多，27万个，不过无伤大雅。

N50=58Mb

那么这是怎么做的呢？

与三代基因组hifiasm包送到家不一样，二代基因组虽然测序花钱少，但是组装麻烦的一比；二代基因组麻烦就麻烦在工艺上，要进行数据质控，要进行contig组装，还要手动去杂合和进行scaffloding，做完scaffolding还要做gap closing。

于是乎，本着二代省钱的原则，比如说，一批近缘物种，你可能已经测了几个Revio平台HiFi的三代，然后恰好有几个样DNA有点拉跨，那么你可以考虑测点二代，通过这些近缘物种三代的基因组来辅助进行组装。

具体流程如下：

Step1:测序数据的过滤和质控，基因组大小估计

过滤用fastp就行了，参数可以放严一点；质控的话fastqc+multiqc差不多了。

大小估计一般现在用jellyfish或者kmc+genomescope2，组装基因组的话我更喜欢kmergenie

Step2:Contig水平组装

这个方法有很多，华大那边搞过一个SOPAdenovo2，还有一些公认的工具像abyss。内存不够可以考虑用minia组装，省内存，快。

Step3：去杂合，scaffold

redundans pipeline

Step4: 有参scaffold

Ragtag

Step5: 补gap

Gapcloser

后面更新 https://github.com/gotouerina/NGS-assembler

最后编辑于：2024.04.30 09:53:44

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。