基因组装 | hifiasm 输出结果文件细究

基因组组装这块我看的不是很多,尽管也看过一些资料,跟朋友也讨论过。但仍然感觉理解不够深入。索性,自己直接肉眼看看,或许更为实在。

hifiasm 输出结果有哪些?

一般来说,用hifiasm组装基因组,纯合材料用- l0,非纯系材料,比如我们做园艺果树的,尽量是希望分出来两个单倍型,所以参数-l3,当然,分出两个单倍型,是默认参数,所以默认可以不设置。
两个模式大体输出结果如下图:


可以看出来,区别在于前者多输出了一个a_ctg而后者则多输出了hap1.p_ctghap2.p_ctg
逻辑上,看过文献应该比较容易理解

理解共同的输出文件

r_utg

r 代表 raw,也就是最初组装出来的原始结果。其中 utg 表示 unitig,或理解为初步组装且没有拆分气泡或者冲突的结果。


p_utg

p 代表 primary,基本上是在 raw 的基础上去除掉一些覆盖率低的连接(或叫气泡)。看起来简洁了不少,其实是少了 60000 条边(当然图太大,看不太出区别....不过确实是小了四分之一)


或许高杂合材料里面,覆盖率低的区域,也可能是另一个单倍型区域?用于后续HiC挂载,可能也要考虑进去。在 p_utg 和 p_ctg 上的选择,或需要考量

p_ctg

p 代表 primary,ctg 代表了拆分结果。


逻辑上 p_ctg 包含了全部单倍型结果(含 hap1 和 hap2)。事实上,这个文件在l0l3的表现不相同,可以从文件大小看出区别。个人感觉,l0下 p_ctg 约等于 canu 软件的组装结果;而l3模式下,p_ctg 比较接近于主要的一套单倍型结果,大体是hap1hap2中表现最好的每个contig的hap的组合。

a_ctg

a 代表 alternative,大体是拆分出来 p_ctg 之后剩下的就放在 alternative。

hap1/hap2 ctg

亦即两个单倍型的拆分结果。

假如有 HiC 数据

结果类似。phased的效果会好很多。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容