在我们进行组学数据分析或者看别人给我们的数据报告的时候,经常会看到诸如ENSG00000141738 之类的名称,面对这样的名称,我们往往是得不到任何信息的,更不可能把这样的数字写到文章中。
那么,这些数字到底是什么?
又怎样批量“换算”为我们熟悉的基因名呢?
今天,小编就和大家分享这一技能~
首先打开ensembl的官网,http://asia.ensembl.org/index.html,然后点击“BioMart”。
进入之后的第一步是选择相应的版本,在这里,我们选择的是第一个“Ensembl Genes 99”;然后就是选择相应物种的数据库,我们以“Human genes”为例。
然后,我们就会进入到正式转换的界面,然
后按照 “Filters” - "GENE" - "Input ......",在最后的红框中填入诸如ENSG00000141738等需要进行变换的基因ID。
以上为可以理解为输入数据,那么接下来就定义输出数据的格式了。在 “Attributes” 中勾选 “Gene name”,设置好之后进行 “Count”,计算结束之后点击 “Results” 查看结果,我们看到输入的基因 ID 的基因名为 “GRB7”。
当然,这次我们仅仅是输入了一个基因,如果我们批量进行转换,那也是可以的,官网推荐一次最多500个,其实超过该数量也是可以的,就是需要更多时间去计算。批量转换以后,可以以文件的形式进行下载,然后在Excel打开就好了。
到这里,我们就拿到了基因 ID 和基因名相对应的列表,但是这些基因名的顺序和我们现有文件的行名称是不对应的,那么如何对这些进行排序或者从对应列表中筛选出我们需要的 “配对”列表呢?
可以借用 Excel 的VLOOKUP 函数进行,具体操作可以自行百度;
当然,如果你会用 R 语言,那么一个函数即可到达筛选和匹配的功能。
如果你还没接触到 R 语言,那现在学习也不晚 ,点击链接领取学习资料:重磅福利 | 5本R语言书籍免费送