2024年TCGA迎来改版,本文介绍的下载方式有一定变化。详见:https://mp.weixin.qq.com/s/q6XFdEBWRHDfIHi09suIFQ
数字病理图像分析需要高质量的输入图像。虽然癌症基因组图谱(The Cancer Genome Atlas,TCGA)中有大量可用的图像,但目前数据门户中提供的是冷冻标本,这些标本不适合用于计算分析。本文讨论了如何下载与相应病人对应的福尔马林固定石蜡包埋(Formalin-Fixed Paraffin-Embedded,FFPE)切片。
首先简要介绍,TCGA提供两种类型的切片:速冻切片和福尔马林固定石蜡包埋(FFPE)切片。速冻样本通常在手术中在冷冻实验室制备,以帮助外科医生判断肿瘤边缘是否清洁(即肿瘤是否已完全切除)。速冻是一个快速且“简单”的过程,但经常会损伤组织,使其呈现出类似瑞士奶酪的外观:
而FFPE切片是诊断医学的黄金标准,通过使用福尔马林固定标本,然后将其嵌入石蜡蜡块中切割制备而成。其外观更加清晰,更适合计算分析:
更全面的讨论可以在以下参考链接找到:
- http://www.andrewjanowczyk.com/download-tcga-digital-pathology-images-ffpe/
- https://www.biochain.com/blog/what-is-ffpe-tissue-and-what-are-its-uses/
TCGA提供了这两种类型的切片,因此在获取正确的队列时必须小心,不要混合队列,除非这是你的实验设计的特定部分。
通过查看特定的文件名,我们可以找到两者的区别,其中带有“TS#”或“BS#”的文件,#是一个整数,是冷冻切片,如下所示:
TCGA-CH-5765-11A-01-TS1
.2a1faf76-526b-4581-b947-e8d733674df7.svs
而带有“DX#”的文件,#同样是一个整数,是FFPE切片:
TCGA-14-0786-01Z-00-DX2
.9dd57cfe-f467-4796-a491-48b737a6248c.svs
为了执行下载,我们需要两个组件,(1)TCGA下载工具,和(2)一个清单文件,该文件使用精确的id号来指定下载哪些文件。
首先我们需要访问TCGA数据门户,位于此处:https://portal.gdc.cancer.gov
然后我们点击“Repository”:
接着点击“Data type”下的“slide image”:
然后点击“Experimental Strategy”下的“Diagnostic Slide”:
这会产生一个所有文件名中都有“DX#”字符串的幻灯片列表:
我们可以通过点击来限制特定的器官,例如 Case
,然后是Breast
:
现在我们有了我们希望下载的1,133个文件。我们通过点击“add all files to cart”来实现(或选择我们感兴趣的文件):
最后,我们去Cart,选择download – > manifest::
最后得到了了一个txt文件,我们可以将其提供给gdc-client进行下载:
gdc-client download -m gdc_manifest_20180801_125430.txt