SPDEv3.0---三小时内完成基因家族的基本分析

最近对SPDE完成了更新。在新的版本中,我进一步提高了自动化程度。在基因家族分析方面,可以在三个小时内完成家族成员的识别、序列的提取、可视化等过程。下面是关于功能的基本介绍:

首先是获取基本序列:

批量从基因组中提取序列

在①中放入基因组,在②中放入gff或者gtf文件,在③指明放入的是哪种注释类型的文件,在④选择要提取的序列(基因家族分析一般要提取的是CDS序列和启动子序列)。接下来:

批量翻译

将上述提取到CDS序列放入①,在②设置保存位置并命名,之后点击③运行功能。这里,我强烈建议同学们执行提取-翻译功能。原因是同学们从网络下载的物种蛋白序列,它的基因ID可能与GFF中的ID并不一致。这种情况下,当你想要进行后续分析,总会遇到各种报错从而降低了分析的效率。上述过程基本可以最多15分钟内完成。并不会耽误太长时间。

界面分布

其次:准备好蛋白文件并放入①;在②设置保存位置并命名文件;我给大家准备了120多个基因家族的hmm模型,这些模型是关于家族必须蛋白结构域的。因为一个家族的不同成员可能含有多个结构域,有些结构域并不是每一个成员都具备的;如果家族没有收录,同学们也可以自己准备并把相应放入④。④这里的构建方法是将感兴趣家族必须的结构域的pfam文件合并为一个。这些数据放入后,点击⑤,执行功能。该功能会完成成员识别、序列提取、结构域可视化等一列功能。在这里有一个重要的改进:我发现使用hmm模型的时候,有些成员的结构域不完整,但它仍然会被识别出来。这样就会导致识别的假阳性。为防止这种情况的发生,在结构域识别后,SPDE会识别基因结构域的完整度并对完整度大于80%的成员做序列分析。这个时候会有一个情况,就是没有识别到任何成员。这个时候会有一个报错:

报错信息:unbound method set.intersection() needs an argument

同学们可以考虑打开xxx._all_candidate.txt,这里面ID所具有的基因序列都与结构域有关。如果没有识别到任何成员,这时同学们也可以再考虑一下要不要这些结构域不完整的。

完成后,可以利用如下功能提取基因ID:

提取基因ID

①放入家族序列文件,②设置保存位置并命名,按③提取ID。根据家族成员ID,可以考虑从启动子文件中提取相应基因的启动子序列。之后放入plantcare(https://bioinformatics.psb.ugent.be/webtools/plantcare/html/)中进行启动子分析。在meme(https://bioinformatics.psb.ugent.be/webtools/plantcare/html/)进行保守结构域分析(下载分析完成后的XML格式文件)。使用mega软件进行进化树的构建,构建方法见如何使用SPDE进行基因家族分析---序列的获取以及比对 - 简书。之后,使用SPDE的可视化模块:

进化树可视化

①放入基因家族蛋白序列,②放入nwk格式文件,③设置保存位置并命名,点击④增加可视化类型:

在①选择类型后,点击②添加,设置相应文件后点击绘图,即可完成相应可视化。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容