技能帖 | 基因ID和基因名如何快速互换，三分钟即可做到

在我们进行组学数据分析或者看别人给我们的数据报告的时候，经常会看到诸如ENSG00000141738 之类的名称，面对这样的名称，我们往往是得不到任何信息的，更不可能把这样的数字写到文章中。

那么，这些数字到底是什么？

又怎样批量“换算”为我们熟悉的基因名呢？

今天，小编就和大家分享这一技能～

首先打开ensembl的官网，http://asia.ensembl.org/index.html，然后点击“BioMart”。

进入之后的第一步是选择相应的版本，在这里，我们选择的是第一个“Ensembl Genes 99”；然后就是选择相应物种的数据库，我们以“Human genes”为例。

然后，我们就会进入到正式转换的界面，然

后按照 “Filters” - "GENE" - "Input ......"，在最后的红框中填入诸如ENSG00000141738等需要进行变换的基因ID。

以上为可以理解为输入数据，那么接下来就定义输出数据的格式了。在 “Attributes” 中勾选 “Gene name”，设置好之后进行 “Count”，计算结束之后点击 “Results” 查看结果，我们看到输入的基因 ID 的基因名为 “GRB7”。

当然，这次我们仅仅是输入了一个基因，如果我们批量进行转换，那也是可以的，官网推荐一次最多500个，其实超过该数量也是可以的，就是需要更多时间去计算。批量转换以后，可以以文件的形式进行下载，然后在Excel打开就好了。

到这里，我们就拿到了基因 ID 和基因名相对应的列表，但是这些基因名的顺序和我们现有文件的行名称是不对应的，那么如何对这些进行排序或者从对应列表中筛选出我们需要的 “配对”列表呢？

可以借用 Excel 的VLOOKUP 函数进行，具体操作可以自行百度；

当然，如果你会用 R 语言，那么一个函数即可到达筛选和匹配的功能。

如果你还没接触到 R 语言，那现在学习也不晚，点击链接领取学习资料：重磅福利 | 5本R语言书籍免费送

最后编辑于：2020.12.09 16:58:38

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。