技能帖 | 基因ID和基因名如何快速互换,三分钟即可做到

在我们进行组学数据分析或者看别人给我们的数据报告的时候,经常会看到诸如ENSG00000141738 之类的名称,面对这样的名称,我们往往是得不到任何信息的,更不可能把这样的数字写到文章中。

那么,这些数字到底是什么?

又怎样批量“换算”为我们熟悉的基因名呢?

今天,小编就和大家分享这一技能~

首先打开ensembl的官网,http://asia.ensembl.org/index.html,然后点击“BioMart”。

进入之后的第一步是选择相应的版本,在这里,我们选择的是第一个“Ensembl Genes 99”;然后就是选择相应物种的数据库,我们以“Human genes”为例。

然后,我们就会进入到正式转换的界面,然

后按照 “Filters” - "GENE" - "Input ......",在最后的红框中填入诸如ENSG00000141738等需要进行变换的基因ID。

以上为可以理解为输入数据,那么接下来就定义输出数据的格式了。在 “Attributes” 中勾选 “Gene name”,设置好之后进行 “Count”,计算结束之后点击 “Results” 查看结果,我们看到输入的基因 ID 的基因名为 “GRB7”。

当然,这次我们仅仅是输入了一个基因,如果我们批量进行转换,那也是可以的,官网推荐一次最多500个,其实超过该数量也是可以的,就是需要更多时间去计算。批量转换以后,可以以文件的形式进行下载,然后在Excel打开就好了。

到这里,我们就拿到了基因 ID 和基因名相对应的列表,但是这些基因名的顺序和我们现有文件的行名称是不对应的,那么如何对这些进行排序或者从对应列表中筛选出我们需要的 “配对”列表呢?

可以借用 Excel 的VLOOKUP 函数进行,具体操作可以自行百度;

当然,如果你会用 R 语言,那么一个函数即可到达筛选和匹配的功能。

如果你还没接触到 R 语言,那现在学习也不晚 ,点击链接领取学习资料:重磅福利 | 5本R语言书籍免费送

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容