下载TCGA数据时,可以采用多种方式进行下载,有使用R 相关的packags进行下载,最新的数据最好是从TCGA官网进行下载。
1.使用官网网页进行下载
如果需要下载的数据量不大,可以直接在官网进行下载
1.1 选定所需要下载的数据
image.png
根据需要分析的数据,选定数据后,在右方加入购物车
image.png
1.2 下载数据
不管使用网页下载数据,还是官网提供的GDC工具,有以下几个文件需要下载
image.png
网页下载数据可直接选择cart下载
image.png
2. 使用GDC工具下载数据
使用官方GDC下载工具下载,可以防止数据下载过程中中断。当数据量较大时,并且从TCGA官网下载,最好采用这种方法。
2.1 首先下载gdc工具
image.png
image.png
选择适合自己PC的版本即可。
image.png
2.2下载数据
这个时候就需要用到之前下载的manifest文件和clinical文件
将gdc-client.exe 解压后,将其与manifest文件,clinical文件,meta文件放在同一文件加中。
运行时,win+R打开cmd,进入需要下载的目录,使用如下的操作。
image.png
这之中需要注意在cmd中如何切换盘符路径,并进入相应的文件夹中。目标文件夹后面的命令如下:
gdc-client.exe download -m gdc_manifest_20200525_152610.txt -d KIRC
下载后的数据是以文件夹形式存储,每个文件夹中又是一个压缩文件。下一步就是将所有的压缩文件放置在同一个文件夹中。
下载过程中可能出现报错
ERROR: ('Connection aborted.', error(10060, '')) ] ETA: --:--:-- 0.00 B/s
ERROR: An unexpected error has occurred during normal operation of the client. Please report the following exception to GDC support <support@nci-gdc.datacommons.io>.
ERROR: 'NoneType' object has no attribute 'status_code'
Traceback (most recent call last):
File "gdc-client", line 107, in <module>
File "build\bdist.win-amd64\egg\gdc_client\download\parser.py", line 127, in download
File "build\bdist.win-amd64\egg\gdc_client\download\client.py", line 277, in download_small_groups
File "build\bdist.win-amd64\egg\gdc_client\download\client.py", line 216, in _download_tarfile
AttributeError: 'NoneType' object has no attribute 'status_code'
ERROR: Exiting
这个时候使用官方gdc-client工具的下载优势就体现出来了,出现问题,继续执行上述操作命令,则继续进行下载。
对于下载好,存放在同一个文件夹中的数据,最后一定要和自己在TCGA中选择的数据参数进行比较,是否下载全面。
image.png
gdc下载方法图片参考https://www.jianshu.com/p/5e4a74cc00fe