亚细胞定位是指某种蛋白或某个基因表达产物在细胞内的具体存在部位,包括细胞核、细胞质和细胞膜等部位。传统的实验方法有,利用一些荧光蛋白如GFP、YFP,通过其在激光照射下发出的绿色或黄色荧光,从而精确确定编码蛋白的定位。如果面对质谱打出来很多蛋白,传统的实验方法显得十分乏力。如果能利用生物信息学手段基于一些算法如机器学习等开发的方法进行亚细胞定位预测分析辅助于实验,这样就能省时省力节约成本。
这里以本生烟草为例,给大家介绍如何对感兴趣的很多个蛋白质进行亚细胞定位分析,分为公共平台数据和分析预测两部分。
一、公共平台数据
1, 通过uniprot数据库下载已有的亚细胞定位数据
打开网址https://www.uniprot.org/,在搜索框内直接搜索nicotiana benthamiana(本生烟草的拉丁学名),如下图所示:
Download栏选择对应的文件格式进行下载(建议excel格式),Column栏选择对应的列数据进行下载。
2,下载得到1224个蛋白的定位信息
包括protein name, gene name, sequence, subcellular location等信息。
如下图所示:
较好的一点是,subcellular location列信息中还包括了亚细胞定位的文章出处。如果蛋白ID和质谱打出来的蛋白列表(筛选后)不一致,则需要进行蛋白序列比对进行一一对应,这里就不进行详细介绍了。
最后,将有定位信息的蛋白列表与感兴趣蛋白列表取overlap,得到感兴趣蛋白的定位信息。
二、分析预测(基于已有工具预测)
最近几年,不断有新的预测工具出来,如LOCALIZER(2017年),pLOC-mPlant(2017年),BUSCA(2018年),WoLF PSORT(2006年,引用2042次)等。这里最终选择BUSCA工具进行预测分析。该工具支持在线预测,它整合了多种计算预测工具,基于GO条目,提取蛋白质序列特征信息。
下图是BUSCA工具面向真核生物的分析预测流程:
BUSCA工具在线分析预测过程:
①,准备所有蛋白的序列fasta文件
②,提交fasta文件(红色框)进行在线预测,并点击“Start prediction”
③,下载预测结果文件
最后,拿BUSCA预测结果与感兴趣蛋白的定位数据进行比较,主要为了:
1,看BUSCA工具亚细胞定位预测分析的可信度如何
2,整合感兴趣蛋白的亚细胞定位数据信息
参考BUSCA工具文章链接:https://academic.oup.com/nar/article/46/W1/W459/4990035
**欢迎关注公众号:"生物信息学"**