番茄SL2.5 基因ID转换为Entrez ID

接着上一个帖子,在总结出我说可以通过爬虫获得两个基因命名规则匹配的文本文件,但是肥肥让我想到了一个办法可以在网站上直接下载该文件,这个神奇的网站就是 Ensembel Plant bioMart

本身该网站就可以直接转基因ID,参考bioinfowen,但是对于番茄SL2.5基因ID(SolycXXgXXXXXX),它的识别是基于Protein stable ID[e.g. Solyc00g007010.3.1]和 STRING ID,二者一致,都是对应具体蛋白,如果我们对转录本进行ID转换是可以的,但是我们是对基因进行转换,因此没有后面的小数点等后缀。那么该如何办呢?

办法:直接下载网站的参考的ID转换文件,自己修改。
具体步骤:选择好参考基因组后,等网站刷新完,依次点击 Attributes,EXTERNAL,在 External References 下勾选 NCBI gene ID,STRING ID ,然后点左上角的 Count,等待其刷新完
点击Results,后面出来表格,选好格式,直接点击GO下载就可以了,获得了文件,进行文本操作就能得到最终的结果,结果文件我放在github
名字开头是 sly。注意这个结果文件中的会有重复值,也就是会有几个EntrezID对应同一个基因名或者转录本名。

所以这个办法应该适用于所有能够在Ensemble Plant查到的物种而不只是番茄

补充:昨天我发现一个问题,就是Ensemble Plant 上面的文件有可能因为没有及时更新,所以匹配的基因名可能比现在在Entrez上面搜到的要少很多,因此还是建议去NCBI的官方FTP去下载最新的基因名匹配注释文件,更加准确一些

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容