简介:混池测序分析(Bulked segregant analysis)是一种省时省力、广泛应用于挖掘性状遗传位点的方法,已有多种相应算法被开发出来。包括基于高低池等位基因频率差异的ΔSNP-index方法,基于欧式距离的
方法,基于G值计算的G’方法,基于LOD值计算的SmoothLOD方法以及基于非参数检验的Ridit方法等。这些方法缺乏用户友好型软件,从而使用复杂;同时大多只适用于两个混池,且难以检测复杂性状和背景下的微效位点。
DeepBSA是2022年8月在杂志Molecular Plant上发表的利用深度学习进行功能基因定位的混池测序新算法。作者将开发的新算法和五种广泛使用的算法集成为一个软件,包括数据预处理、功能位点定位以及模拟数据生成等功能。同时开发出一个用户友好的操作界面,通过简单操作可以快速获得定位的图表,还可以比较不同方法的结果差异。
文章引用:Li Z., Chen X., Shi S., Zhang H., Wang X., Chen H., Li W., and Li L. (2022). DeepBSA: A deep-learning algorithm improves bulked segregant analysis for dissecting complex traits. Mol. Plant. doi: https://doi.org/10.1016/j.molp.2022.08.004.
软件地址:http://zeasystemsbio.hzau.edu.cn/tools.html, 目前更新到v1.4,且分别提供Windows版本和Linux版本,相应使用步骤在 github (https://github.com/lizhao007/DeepBSA)上也有说明。操作手册附在最后。
目前笔者收到的反馈报错基本都是输入VCF文件格式不对造成的,特强调以下几点:
1、VCF文件中的SNP只保留染色体的,不要Contig或Scafflod上的,不然软件识别“染色体”太多,会闪退。
2、VCF文件中不要保留亲本列的信息,只需要混池列的信息。
3、VCF文件有多个混池时,应该安装表型顺序排列;除了DL和ridit这两个能识别多个池的方法会用到所有池信息,其它方法只会用到最高和最低池的信息。
4、VCF文件可以有#注释行,CSV文件不可以有。
5、多等位基因的位点软件不识别,需要去掉。
6、进一步维护的只有Windows版本,建议使用这个版本。
结果文件包括定位图(PNG和PDF)、定位区间以及每个SNP的方法值(可以自己进一步作图),如下: