如何批量下载TCGA里的数据(gdc-client方法)

上一篇文章简单的探索了一下怎么在TCGA数据库里找到自己想要的数据,也具体的说明了一下如何下载少量的数据。那么问题来了,如果我想下载的文件有几十个,甚至上百上千怎么办?总不能一个一个下载吧,所以这里讲一下怎么批量下载数据。

首先还是进入TCGA的网站,按照上一篇文章里讲的怎么过滤你想要的文件,这里举个例子:

这里我的筛选条件是TCGA数据库,project选择的是TCGA-HNSC,primary site选择base of mouth,疾病类型是squamous cell neoplasma。根据你的筛选条件筛选好后,可以看到右边的文件列表里有好多文件,而这些并不是你都需要的。

看到好几百的文件弹出来后不要着急,因为这些文件不是所有的你都要下载。这里举例,下载RNA-seq的FPKM标准化后的文件,这时你需要往上拉,在网页的上面左上角看到有file和case的选项,像这样:

现在你是在case的筛选条件里选的,这时你需要点击Files,根据files的类型再筛选你想要的:

在左边的筛选栏里,我选择了"RNA-seq","HTseq-FPKM",然后会显示所有符合你要求的文件了。

点击购物车,有一个选项是:"add All files to the Cart",选这个,就像这样:

然后网页右上角的Cart里就会显示有22个文件,点击进入购物车:

这里是你所有选择的文件。点击蓝色框框里的"Download",选择Manifest:

这时会下载一个txt文件,可以看一下这个txt文件里都有什么:

这是你要下载的所有文件的信息

接下来,你需要一个软件了,就是大名鼎鼎的gdc-client软件,这是一个官方软件,那么在哪里下载这个软件呢?请看这里:

网页右上角部分有一个:GDC Data Transfer Tool,点击它

找到这个:

选择你的电脑系统,这里我的是linux系统(选择Ubuntu_x64),其他系统还请自行摸索或查阅其他文章(windows系统请参阅:使用官方gdc-client软件下载TCGA数据),复制下载地址,然后:

#下载
$ wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.4.0_Ubuntu_x64.zip
#解压
$ unzip gdc-client_v1.4.0_Ubuntu_x64.zip
#加入环境变量
$ echo 'export PATH=~/Downloads/gdc_client' >> ~/.bashrc
$ source ~/.bashrc

查看是否安装完毕:

$ ./gdc-client --help
/tmp/_MEIXOjxtt/cryptography/hazmat/primitives/constant_time.py:26: CryptographyDeprecationWarning: Support for your Python version is deprecated. The next version of cryptography will remove support. Please upgrade to a 2.7.x release that supports hmac.compare_digest as soon as possible.

#这里是使用方法
usage: gdc-client [-h] [--version] {download,upload,settings} ...

The Genomic Data Commons Command Line Client

optional arguments:
  -h, --help            show this help message and exit
  --version             show program's version number and exit

#这个软件只有三个命令
commands:
  {download,upload,settings}
                        for more information, specify -h after a command
    download            download data from the GDC
    upload              upload data to the GDC
    settings            display default settings

有了软件,有了你刚才下载的文件列表,然后就可以下载了:

$ gdc-client download -m gdc_manifest_20191230_210713.txt -d ~/Downloads/TCGA_RNA_seq
#这里download是命令,-m的意思是下载manifest,后面接着的是你的文件列表的txt文件名称,-d是你下载的文件要储存的地方
#然后会弹出来一串下面这些东西
/tmp/_MEIqNAu77/cryptography/hazmat/primitives/constant_time.py:26: CryptographyDeprecationWarning: Support for your Python version is deprecated. The next version of cryptography will remove support. Please upgrade to a 2.7.x release that supports hmac.compare_digest as soon as possible.
100% [############################################################################################################] Time: 0:00:01   0.95  B/s 
100% [############################################################################################################] Time: 0:00:01   0.88  B/s 
100% [############################################################################################################] Time: 0:00:01   0.91  B/s 
100% [############################################################################################################] Time: 0:00:01   0.91  B/s 
100% [############################################################################################################] Time: 0:00:01   0.91  B/s 
100% [############################################################################################################] Time: 0:00:01   0.98  B/s 
100% [############################################################################################################] Time: 0:00:00 610.83 kB/s 
100% [############################################################################################################] Time: 0:00:00 660.70 kB/s 
100% [############################################################################################################] Time: 0:00:00 541.43 kB/s 
100% [############################################################################################################] Time: 0:00:00 721.83 kB/s 
Successfully downloaded: 22
#下载好会告诉你成功下载了多少个文件,你可以看一下是不是你选择的文件数目

当然还有其他的一些批量下载方法,有兴趣的可以多了解一下,参考文章:
(1)TCGA数据库-肿瘤基因组图谱
(2)TCGA 数据库
(3)TCGA下载系列教程终章

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

推荐阅读更多精彩内容