如何将TCGA文件ID(UUID)转换为TCGA 样本ID(Barcode)

我遇到的问题:从TCGA GDC把表达谱的数据下载到服务器后,发现表达矩阵有两列,一列是ENSG号,一列是表达值,而文件名为一串数字,虽然在manifest文件里可以找到每个文件名所对应的TCGA UUID,但是找不到UUID所对应的样本名,那就不知道哪个表达谱是哪个样本的了。。。

所以我们要实现根据表达矩阵的UUID找到对应的样本名,我搜索到的一些中文教程(比如从TCGA数据库下载并整合清洗高通量肿瘤表达谱-临床性状数据)是从 manifest 文件里获得的样本名,但是我所下载的manifest文件根本没有样本名,只有矩阵文件名和对应的UUID

因此试了下全英文搜索,搜到了几篇,方法都是差不多的,但有的行有的不行,经过一番测试得到了最终的解决方案,特此记录

参考文章:GenomicDataCommons Example: UUID to TCGA and TARGET Barcode Translation

我演示的主文件夹为test_gdc,以三个样本为例,分别为:TCGA-G3-A3CGTCGA-2Y-A9H4TCGA-BC-A112,获取这三个样本的manifest文件,使用gdc-client工具下载数据,每个样本包含3中表达谱矩阵,所以一共9个文件

不会下载的朋友可以参考:TCGA 数据下载工具 -- gdc-client

下载过程:

gdc-client download -m gdc_manifest_20210130_070310.txt -d out
100% [###############################################################################################################]
100% [####################################################################################] Time:  0:00:01 128.9 KiB/s
100% [####################################################################################] Time:  0:00:02 200.0 KiB/s
100% [####################################################################################] Time:  0:00:02 202.0 KiB/s
100% [####################################################################################] Time:  0:00:02 182.0 KiB/s
100% [####################################################################################] Time:  0:00:01 125.3 KiB/s
100% [####################################################################################] Time:  0:00:02 190.7 KiB/s
Successfully downloaded: 9
# 下载的表达矩阵位于out文件夹,这里列出所有表达矩阵
list.files("out", ".gz$", recursive = TRUE)
[1] "1c5adeed-f154-4b7c-902d-779c73c0f256/9dd14a4d-a863-4994-b5c6-b5bec92ff818.htseq.counts.gz"
[2] "49861d17-3b26-47ef-a8c6-7005be07a81d/9700948e-21f5-42ae-9cb5-f18c745887ce.htseq.counts.gz"
[3] "49dd5911-0309-4442-bdbe-762e0767f0c9/9700948e-21f5-42ae-9cb5-f18c745887ce.FPKM.txt.gz"    
[4] "50aedc81-a2e9-497b-9163-6d216819b850/9dd14a4d-a863-4994-b5c6-b5bec92ff818.FPKM-UQ.txt.gz" 
[5] "7726c67e-fa7b-4ea6-bb0b-62173aee8a4d/9dd14a4d-a863-4994-b5c6-b5bec92ff818.FPKM.txt.gz"    
[6] "7788f2a7-9755-4c9d-8ac2-0aa8e91f2fee/b7e1f458-b426-4e4e-b4db-e0472396198b.FPKM-UQ.txt.gz" 
[7] "8bf550b9-0ae8-472a-9215-115c91f8593b/b7e1f458-b426-4e4e-b4db-e0472396198b.htseq.counts.gz"
[8] "95268ab8-e4b2-48c2-8a6f-345536031ff8/9700948e-21f5-42ae-9cb5-f18c745887ce.FPKM-UQ.txt.gz" 
[9] "f012dc4b-ad50-4412-98d6-fc97147f87b2/b7e1f458-b426-4e4e-b4db-e0472396198b.FPKM.txt.gz"

# 接下来以只整合FPKM文件作为演示

# process FPKM files
suppressPackageStartupMessages(library("R.utils"))
dir.create("FPKM")
manifest = read.table("gdc_manifest_20210130_070310.txt", header = TRUE, sep = "\t", stringsAsFactors = FALSE)
FPKM = list.files("out", ".FPKM.txt.gz$", recursive = TRUE, full.names = TRUE)
> FPKM
[1] "out/49dd5911-0309-4442-bdbe-762e0767f0c9/9700948e-21f5-42ae-9cb5-f18c745887ce.FPKM.txt.gz"
[2] "out/7726c67e-fa7b-4ea6-bb0b-62173aee8a4d/9dd14a4d-a863-4994-b5c6-b5bec92ff818.FPKM.txt.gz"
[3] "out/f012dc4b-ad50-4412-98d6-fc97147f87b2/b7e1f458-b426-4e4e-b4db-e0472396198b.FPKM.txt.gz"
Ns = length(FPKM)

for(i in 1:Ns){
    
    cat("Remain", Ns - i, "\n")
    gzFile = FPKM[i]
    gunzip(gzFile, remove = FALSE)
    fileIn = gsub(".gz", "", gzFile)
    xExpM = read.table(fileIn)
    values = xExpM[, 2]
    if(i == 1){
        expM = xExpM
    } else{
        expM = cbind(expM, values)
    }
}

# file.remove(gsub(".gz", "", FPKM))
expM[1:10, 1:4]
                   V1           V2       values     values.1
1   ENSG00000242268.2  0.000000000  0.079969868 2.931706e-02
2   ENSG00000270112.3  0.000000000  0.000000000 4.067835e-03
3  ENSG00000167578.15  1.339747823  3.562183318 2.490200e+00
4   ENSG00000273842.1  0.000000000  0.000000000 0.000000e+00
5   ENSG00000078237.5  2.804457587  2.629508721 1.872878e+00
6  ENSG00000146083.10  2.782951753  4.870320370 2.793491e+01
7   ENSG00000225275.4  0.000000000  0.000000000 0.000000e+00
8  ENSG00000158486.12  0.003219903  0.001897681 2.212301e-01
9  ENSG00000198242.12 46.515190225 65.353703728 2.916032e+02
10  ENSG00000259883.1  0.156192432  0.110464214 0.000000e+00

rownames(expM) = expM[, 1]
expM = expM[, -1]
expM[1:10, 1:3]
                             V2       values     values.1
ENSG00000242268.2   0.000000000  0.079969868 2.931706e-02
ENSG00000270112.3   0.000000000  0.000000000 4.067835e-03
ENSG00000167578.15  1.339747823  3.562183318 2.490200e+00
ENSG00000273842.1   0.000000000  0.000000000 0.000000e+00
ENSG00000078237.5   2.804457587  2.629508721 1.872878e+00
ENSG00000146083.10  2.782951753  4.870320370 2.793491e+01
ENSG00000225275.4   0.000000000  0.000000000 0.000000e+00
ENSG00000158486.12  0.003219903  0.001897681 2.212301e-01
ENSG00000198242.12 46.515190225 65.353703728 2.916032e+02
ENSG00000259883.1   0.156192432  0.110464214 0.000000e+00

# UUID to TCGA barcode
UUID = manifest$id[match(basename(FPKM), manifest$filename)]
UUID
# BiocManager::install("GenomicDataCommons")
suppressPackageStartupMessages(library("GenomicDataCommons"))

TCGAtranslateID = function(file_ids, legacy = FALSE) {
    info = files(legacy = legacy) %>%
        filter( ~ file_id %in% file_ids) %>%
        select('cases.samples.submitter_id') %>%
        results_all()
    # The mess of code below is to extract TCGA barcodes
    # id_list will contain a list (one item for each file_id)
    # of TCGA barcodes of the form 'TCGA-XX-YYYY-ZZZ'
    id_list = lapply(info$cases,function(a) {
        a[[1]][[1]][[1]]})
    # so we can later expand to a data.frame of the right size
    barcodes_per_file = sapply(id_list,length)
    # And build the data.frame
    return(data.frame(file_id = rep(ids(info),barcodes_per_file),
                      submitter_id = unlist(id_list)))
}
TCGA_barcode = as.character(TCGAtranslateID(UUID)[, 2])
colnames(expM) = TCGA_barcode
expM[1:10, 1:3]
                   TCGA-G3-A3CG-01A TCGA-2Y-A9H4-01A TCGA-BC-A112-01A
ENSG00000242268.2       0.000000000      0.079969868     2.931706e-02
ENSG00000270112.3       0.000000000      0.000000000     4.067835e-03
ENSG00000167578.15      1.339747823      3.562183318     2.490200e+00
ENSG00000273842.1       0.000000000      0.000000000     0.000000e+00
ENSG00000078237.5       2.804457587      2.629508721     1.872878e+00
ENSG00000146083.10      2.782951753      4.870320370     2.793491e+01
ENSG00000225275.4       0.000000000      0.000000000     0.000000e+00
ENSG00000158486.12      0.003219903      0.001897681     2.212301e-01
ENSG00000198242.12     46.515190225     65.353703728     2.916032e+02
ENSG00000259883.1       0.156192432      0.110464214     0.000000e+00

又经过两天点的学习,发现文件名和文件ID以及样本ID的对照表是可以下载到的,就是metadata文件,但是我目前发现只能从购物车中下载,所以必须要添加先到购物车,再下载:

从这个metadata文件获取文件名和文件ID以及样本ID的对照表非常简单,索性写了一个小函数:

getIDtable <- function(metaFile){
  
  suppressPackageStartupMessages(library("jsonlite"))
  meta = jsonlite::fromJSON(metaFile)
  IDtable = meta[, c("associated_entities", "file_name", "file_id")]
  TCGA_barcode = sapply(IDtable$associated_entities, function(x) x[[1]][1])
  IDtable[, 1] = TCGA_barcode
  colnames(IDtable)[1] = "barcode"
  return(IDtable)
}

# let's use it
IDtable = getIDtable("samplesheet/FPKM_metadata.cart.2021-02-01.json")
IDtable[1:5, ]
                       barcode                                        file_name                              file_id
1 TCGA-DD-A1EJ-11A-11R-A155-07 7a3a131b-883d-4f82-8b3b-ede7733f68d8.FPKM.txt.gz 95e6e420-6b86-4034-aa6c-369c38c8840a
2 TCGA-DD-A4NQ-01A-21R-A28V-07 51c2d807-7ee6-4b42-a6a7-3eb14f987bc0.FPKM.txt.gz c8546523-a711-4b5f-97ff-7a3c6ca9413f
3 TCGA-G3-A5SM-01A-12R-A28V-07 fdb62f73-33a7-44c3-950c-739383b9dd30.FPKM.txt.gz e62a1625-73f9-49e4-9922-d15a6e18ee72
4 TCGA-MI-A75E-01A-11R-A32O-07 932b63bf-d723-40dd-a5f5-21830b8ea06e.FPKM.txt.gz 72accbef-4357-45e3-9d31-5dd4eb8d3ded
5 TCGA-DD-A11D-01A-11R-A131-07 9ccd91ba-7180-443a-b03b-f9b398c679e4.FPKM.txt.gz 2a88aff5-a29d-434a-9859-c60f47bcf75e

有个这个table,麻麻再也不用担心我找不到样本ID了~


觉得有用的老铁麻烦点个小爱心~😏

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容