转录组完整的ID转换:biomaRt和gtf

ID转换过程中会有基因丢失这件事情,在部分做干实验的人看来,是非常正常的。但不做干实验的湿实验人知道这件事,心里可能会有疙瘩。为什么要丢失呢?为什么丢失了不补回来?

在分析结果中查阅重要的基因并绘图时发现竟然无此基因的数据,或者是绘图时row.name的部分丢失,会让我们的强迫症爆发。真心希望有一个完整的ID转换方法。在这之前我使用的是ENSEMBL的官方工具BiomaRt。目前BiomaRt囊括了多达208种物种的ID数据,可以说是又大由全。然而即使我做的是人类基因ID转换,仍然还是发现有基因丢失,是可忍孰不可忍。后经过多方查阅,决定使用参考基因组的gtf文件进行完整的ID转换。下面我们就来对比一下,BiomaRt和gtf的ID转换结果。

(注:使用BiomaRt进行ID转化出现ID丢失的原因不一定是因为R包不好,有可能是数据的版本不同)

数据准备

在这里使用本人的转录组数据用于测试,数据经过上游处理后简单整理数据如下:

0
> dim(count) # 检查数据框大小
[1] 58884     9

> table(duplicated(count$geneid)) # 检查是否有重复的ensemble ID
FALSE 
58884 

由上信息可见,我的转录组数据经过比对后得到58884个“基因”,因此gene symbol转换要越接近这个数值越好。

1. BiomaRt

1.1 install BiomaRt

安装代码可以从bioconductor http://www.bioconductor.org/packages/release/bioc/html/biomaRt.html上查阅

if (!requireNamespace("biomaRt", quietly = TRUE) ){
  BiocManager::install("biomaRt")
}
  
library(biomaRt)  # 激活R包

1.2 选定人类数据集

listMarts()  ## 查看目前提供的数据库
# formal class mart 
my_mart<- useMart("ENSEMBL_MART_ENSEMBL") # 选定数据集
## 查看数据集
datasets<- listDatasets(my_mart)
datasets
dim(datasets)  # [1] 202   3  目前有208个数据集(物种ID信息)
# 设定人类ID数据集
human_dataset<- useDataset("hsapiens_gene_ensembl",mart = my_mart) # 约1.3 M
1

1.3 简单查看人类ID数据集

human_dataset@attributes$name[1:20] ## 查看一下都有什么名字
2

可以看到数据集中包含:ensemble ID和gene id的转换,基因转录本ID等等内容。简单查阅一遍,可知“ensembl_gene_id”是我们想要的内容。

1.4 设定attributes参数

attributes参数定义了四个输出项ensembl_gene_id,chromosome_name, hgnc_smbol以及hgnc_id

count_value<- count$geneid  # 设定需要转换的ID
attr1<- c("ensembl_gene_id","chromosome_name","hgnc_symbol","hgnc_id") # 设定参数
count_ID<- getBM(attributes = attr1,
          filters = "ensembl_gene_id",
          values = count_value, 
          mart = human_dataset)

输出结果如下:可见attribute定义的四个输出项

ID conversion

1.5 查看ID转换的完整度

> dim(count_ID)  # 查看ID转换结果
[1] 58666     4  # 有58666个ensemble ID完成了比对

可见有58666个ensemble ID完成了转换,这比原始数据中的58884少了218个ensemble ID。但这仅仅是ensemble ID的转换结果,我们还需要查看gene symbol(也就是表格中的hgnc_symbol)的完成度。

table(is.na(count_ID$ensembl_gene_id))
table(is.na(count_ID$hgnc_symbol))
table( count_ID$hgnc_symbol == "")
table(duplicated(count_ID$hgnc_symbol))
biomaRt

小结:biomaRt ID转换会出现大量的gene symbol的丢失,具体原因可能是已经将重复的gene symbol去除(有多个ensemble ID对应gene symbol的情况)。

2. 使用基因组的gtf注释文件

在自己用于比对的参考基因组那里可以找到相应的注释文件,我使用的是hg38版本

hg38

2.1 配置R包

BiocManager::install("rtracklayer")
library(rtracklayer)

进行相应的文件设置

# input 
gff <- readGFF("Homo_sapiens.GRCh38.96.gtf")
head(gff)

mapid <- gff[gff$type == "gene", c("gene_id", "gene_name")]
head(mapid)
#gff文件很大,用掉就删掉

# 判断我们要转换的基因是不是都在
table(count$geneid %in%mapid$gene_id)
mapid <- read.csv("ensemble2symbol.csv")
head(mapid)
whether all

至此,mapid文件则是存储ID转换信息的文件。

2.2 合并

查看mapid文件并与需要进行ID转换的数据合并

# 查看gene symbol是否有空值
table( mapid$gene_name == "")

# 用merge进行合并
df <- merge(count, mapid, by.x="geneid", by.y="gene_id")

# 先判断是不是存在重复的基因名,如果存在重复,先考虑去重
table(duplicated(df$gene_name))

df <- df[!duplicated(df$gene_name),]
table(duplicated(df$gene_name))
image

由上可知,使用gtf文件进行ID转换会得到最全的结果。但最全的结果是否最适合后续分析,我们还需要进一步考察。

2.3 查看gtf转换文件

image

由上图可见,有一些ensemble ID其实是对应同一个gene symbol,只不过这些gene symbol有不同的版本号,可见名字后面的小数点。于是我们会提出疑问,该如何处理不同版本的gene symbol呢?暂未明确,须待考察。

3. 小结

总体来说,使用gtf注释文件进行ID转换是最完整的ID转换。关于ID转换的事情困扰我已久,或许这本不是什么大问题,但仍是一个问题。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,542评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,822评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,912评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,449评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,500评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,370评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,193评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,074评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,505评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,722评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,841评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,569评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,168评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,783评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,918评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,962评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,781评论 2 354

推荐阅读更多精彩内容