有参二代重测序数据组装高质量基因组

之前有一批样本坏掉了,DNA跑胶跑出来就不到10Kb,本着样本难得的心态,送去搞了点二代DNA重测序,想着能不能靠着二代数据组装个好点的基因组;又嫌弃illumina太贵,用的华大平台测了100x数据量;最开始组的一坨答辩,后来慢慢改善搞的越来越好了;

先上结果图:


BUSC评分 S+D=98.31%

组装质量:N50很高,只是contig数量还是有点多,27万个,不过无伤大雅。


N50=58Mb

那么这是怎么做的呢?

与三代基因组hifiasm包送到家不一样,二代基因组虽然测序花钱少,但是组装麻烦的一比;二代基因组麻烦就麻烦在工艺上,要进行数据质控,要进行contig组装,还要手动去杂合和进行scaffloding,做完scaffolding还要做gap closing。

于是乎,本着二代省钱的原则,比如说,一批近缘物种,你可能已经测了几个Revio平台HiFi的三代,然后恰好有几个样DNA有点拉跨,那么你可以考虑测点二代,通过这些近缘物种三代的基因组来辅助进行组装。

具体流程如下:

Step1:测序数据的过滤和质控,基因组大小估计

过滤用fastp就行了,参数可以放严一点;质控的话fastqc+multiqc差不多了。

大小估计一般现在用jellyfish或者kmc+genomescope2,组装基因组的话我更喜欢kmergenie

Step2:Contig水平组装

这个方法有很多,华大那边搞过一个SOPAdenovo2,还有一些公认的工具像abyss。内存不够可以考虑用minia组装,省内存,快。

Step3:去杂合,scaffold

redundans pipeline

Step4: 有参scaffold

Ragtag

Step5: 补gap

Gapcloser

后面更新 https://github.com/gotouerina/NGS-assembler

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容