各种原因,今晚晚睡。
想想还是简单记录一下,大体是好友刘教授最近在搞一个超大基因组,总大小是 12G+,同时只有 5 个染色体。这意味着每条染色体的长度都很长,超过 1G 很正常。这当然让我想起来大蒜基因组。
两个人折腾了两天,愣是没怎么找到原因。后来想想,基因组太大的可能性不大,因为小麦有 16G。于是剩下的或许是单个染色体太长?与朋友大鸡哥确认了下,bing测试了下。初步结果,确实如此。
大体是 hisat2-build 可以支持超长染色体,但实际上 hisat2-align 则无法支持。所以一旦装载了染色体,开始比对时,就会报错,error 代码 134。
解决的办法简单,
结合 IGV 和 基因结构注释信息,找几个断点,把染色体都分为单条长度不超过 1G 的基因组,随后用做基因组,进行比对测试。逻辑上,这个并不会影响到基因表达量估算。或者其他转录组数据分析....
另外一个有趣的发现是,WSL2 模式的运行效率远远低于 TBtools 插件。或许多了一层虚拟机(WSL2本质也是虚拟机),到底还是慢了很多,无论是 IO 还是 CPU 效率。或许,真是是 10 倍差异。那么是 1个小时 和 10个小时的区别。
超大基因组,hisat2 超长染色体物种的转录组分析?windows下生信分析效率区别?
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- Abstract 代谢组学分析结合高级遗传群体是研究植物代谢组学的有力工具。然而,水稻(Oryza sativa)...
- 1. 摘要 2. 引言 3. 材料与方法 4. 结果与讨论 5. 参考文献 1. 摘要 草地贪夜蛾(Spodopt...
- RNA- seq 的数据处理主要分为以下几个过程: 1. 测序数据质控,以及参考基因组和注释文件下载; 2. 序列...
- 欢迎批评指正 一、上游处理流程 上游处理步骤包括质量检测、质量控制、比对、定量[2],每一步处理数据的目的都是不同...
- 摘要 杜鹃花(杜鹃花科)是最多样的观赏植物之一,以其文化和经济的重要性而闻名。本研究对杜鹃Rhododendron...