SPDEv3.0---三小时内完成基因家族的基本分析

最近对SPDE完成了更新。在新的版本中，我进一步提高了自动化程度。在基因家族分析方面，可以在三个小时内完成家族成员的识别、序列的提取、可视化等过程。下面是关于功能的基本介绍：

首先是获取基本序列：

批量从基因组中提取序列

在①中放入基因组，在②中放入gff或者gtf文件，在③指明放入的是哪种注释类型的文件，在④选择要提取的序列（基因家族分析一般要提取的是CDS序列和启动子序列）。接下来：

批量翻译

将上述提取到CDS序列放入①，在②设置保存位置并命名，之后点击③运行功能。这里，我强烈建议同学们执行提取-翻译功能。原因是同学们从网络下载的物种蛋白序列，它的基因ID可能与GFF中的ID并不一致。这种情况下，当你想要进行后续分析，总会遇到各种报错从而降低了分析的效率。上述过程基本可以最多15分钟内完成。并不会耽误太长时间。

界面分布

其次：准备好蛋白文件并放入①；在②设置保存位置并命名文件；我给大家准备了120多个基因家族的hmm模型，这些模型是关于家族必须蛋白结构域的。因为一个家族的不同成员可能含有多个结构域，有些结构域并不是每一个成员都具备的；如果家族没有收录，同学们也可以自己准备并把相应放入④。④这里的构建方法是将感兴趣家族必须的结构域的pfam文件合并为一个。这些数据放入后，点击⑤，执行功能。该功能会完成成员识别、序列提取、结构域可视化等一列功能。在这里有一个重要的改进：我发现使用hmm模型的时候，有些成员的结构域不完整，但它仍然会被识别出来。这样就会导致识别的假阳性。为防止这种情况的发生，在结构域识别后，SPDE会识别基因结构域的完整度并对完整度大于80%的成员做序列分析。这个时候会有一个情况，就是没有识别到任何成员。这个时候会有一个报错：

报错信息：unbound method set.intersection() needs an argument

同学们可以考虑打开xxx._all_candidate.txt，这里面ID所具有的基因序列都与结构域有关。如果没有识别到任何成员，这时同学们也可以再考虑一下要不要这些结构域不完整的。

完成后，可以利用如下功能提取基因ID:

提取基因ID

①放入家族序列文件，②设置保存位置并命名，按③提取ID。根据家族成员ID，可以考虑从启动子文件中提取相应基因的启动子序列。之后放入plantcare（https://bioinformatics.psb.ugent.be/webtools/plantcare/html/）中进行启动子分析。在meme（https://bioinformatics.psb.ugent.be/webtools/plantcare/html/）进行保守结构域分析（下载分析完成后的XML格式文件）。使用mega软件进行进化树的构建，构建方法见如何使用SPDE进行基因家族分析---序列的获取以及比对 - 简书。之后，使用SPDE的可视化模块：

进化树可视化

①放入基因家族蛋白序列，②放入nwk格式文件，③设置保存位置并命名，点击④增加可视化类型：

在①选择类型后，点击②添加，设置相应文件后点击绘图，即可完成相应可视化。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

SPDEv3.0---三小时内完成基因家族的基本分析

SPDEv3.0---三小时内完成基因家族的基本分析

相关阅读更多精彩内容

友情链接更多精彩内容