写在前面
前些日子,小朋友赶课题,用了下 TBtools Find the Best Homolgy 的命令行版本,然后就报错了。为什么报错,排查了一下原因,“MUSCLE 命令行参数找不到?”
随后就发现,现在 conda 默认安装的都是 muscle version 5,而 TBtools 一直用的还是 version 3 。两个版本的 MUSCLE 比对软件参数不能说有差别,只能说完全不同。趁着假期,我干脆就还是学习了 2021年 MUSCLE v5 的 Nat Comm 论文。Emmm...新版本的muscle从算法上和v3完全不同,基于文稿描述,现在的 MUSCLE v5 就是又快又准。早前有评测论文,提出 MUSCLE 最快,MAFFT最准,但评测的是 MUSCLE v3。对于 MUSCLE v5,作者给出结论“On large datasets, Muscle v5 is 20-30% more accurate than MAFFT and Clustal-Omega.”。当然,最有意思的还是 MUSCLE v5 现在支持多线程....这对于现代CPU来说非常有用。
今天也有公司的朋友提到 MUSCLE v3 无法处理大数据集。我测试了下才发现,原来 MUSCLE v3 其实是一个 32bit 的软件...在windows下就无法处理超过 2G 的比对中间数据。这些问题,在MUSCLE v5 全部解决了。
为此,TBtools 新增一个 MUSCLE v5 界面化接口,为大伙提供方便。如果你想要最快,同时最准。
使用方法
打开应用后,所有从操作和前述 MUSCLE Wrapper 相同
比对速度不能说很快吧,就是超级快。比 MUSCLE v3 快了非常多,毕竟多线程嘛,可以理解。
至于比对结果很有意思,或许可以理解为准确的把起始密码子对齐了
再看看 MUSCLE v3 的结果,Emmm,有点区别。但是哪个更好就大伙自己评判了。
写在最后
2023年最后一天,就这样吧。我发誓,今年绝对不会再更新 TBtools !!!