上一篇文章简单的探索了一下怎么在TCGA数据库里找到自己想要的数据,也具体的说明了一下如何下载少量的数据。那么问题来了,如果我想下载的文件有几十个,甚至上百上千怎么办?总不能一个一个下载吧,所以这里讲一下怎么批量下载数据。
首先还是进入TCGA的网站,按照上一篇文章里讲的怎么过滤你想要的文件,这里举个例子:
看到好几百的文件弹出来后不要着急,因为这些文件不是所有的你都要下载。这里举例,下载RNA-seq的FPKM标准化后的文件,这时你需要往上拉,在网页的上面左上角看到有file和case的选项,像这样:
现在你是在case的筛选条件里选的,这时你需要点击Files,根据files的类型再筛选你想要的:
在左边的筛选栏里,我选择了"RNA-seq","HTseq-FPKM",然后会显示所有符合你要求的文件了。
点击购物车,有一个选项是:"add All files to the Cart",选这个,就像这样:
然后网页右上角的Cart里就会显示有22个文件,点击进入购物车:
这里是你所有选择的文件。点击蓝色框框里的"Download",选择Manifest:
这时会下载一个txt文件,可以看一下这个txt文件里都有什么:
接下来,你需要一个软件了,就是大名鼎鼎的gdc-client软件,这是一个官方软件,那么在哪里下载这个软件呢?请看这里:
找到这个:
选择你的电脑系统,这里我的是linux系统(选择Ubuntu_x64),其他系统还请自行摸索或查阅其他文章(windows系统请参阅:使用官方gdc-client软件下载TCGA数据),复制下载地址,然后:
#下载
$ wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.4.0_Ubuntu_x64.zip
#解压
$ unzip gdc-client_v1.4.0_Ubuntu_x64.zip
#加入环境变量
$ echo 'export PATH=~/Downloads/gdc_client' >> ~/.bashrc
$ source ~/.bashrc
查看是否安装完毕:
$ ./gdc-client --help
/tmp/_MEIXOjxtt/cryptography/hazmat/primitives/constant_time.py:26: CryptographyDeprecationWarning: Support for your Python version is deprecated. The next version of cryptography will remove support. Please upgrade to a 2.7.x release that supports hmac.compare_digest as soon as possible.
#这里是使用方法
usage: gdc-client [-h] [--version] {download,upload,settings} ...
The Genomic Data Commons Command Line Client
optional arguments:
-h, --help show this help message and exit
--version show program's version number and exit
#这个软件只有三个命令
commands:
{download,upload,settings}
for more information, specify -h after a command
download download data from the GDC
upload upload data to the GDC
settings display default settings
有了软件,有了你刚才下载的文件列表,然后就可以下载了:
$ gdc-client download -m gdc_manifest_20191230_210713.txt -d ~/Downloads/TCGA_RNA_seq
#这里download是命令,-m的意思是下载manifest,后面接着的是你的文件列表的txt文件名称,-d是你下载的文件要储存的地方
#然后会弹出来一串下面这些东西
/tmp/_MEIqNAu77/cryptography/hazmat/primitives/constant_time.py:26: CryptographyDeprecationWarning: Support for your Python version is deprecated. The next version of cryptography will remove support. Please upgrade to a 2.7.x release that supports hmac.compare_digest as soon as possible.
100% [############################################################################################################] Time: 0:00:01 0.95 B/s
100% [############################################################################################################] Time: 0:00:01 0.88 B/s
100% [############################################################################################################] Time: 0:00:01 0.91 B/s
100% [############################################################################################################] Time: 0:00:01 0.91 B/s
100% [############################################################################################################] Time: 0:00:01 0.91 B/s
100% [############################################################################################################] Time: 0:00:01 0.98 B/s
100% [############################################################################################################] Time: 0:00:00 610.83 kB/s
100% [############################################################################################################] Time: 0:00:00 660.70 kB/s
100% [############################################################################################################] Time: 0:00:00 541.43 kB/s
100% [############################################################################################################] Time: 0:00:00 721.83 kB/s
Successfully downloaded: 22
#下载好会告诉你成功下载了多少个文件,你可以看一下是不是你选择的文件数目
当然还有其他的一些批量下载方法,有兴趣的可以多了解一下,参考文章:
(1)TCGA数据库-肿瘤基因组图谱
(2)TCGA 数据库
(3)TCGA下载系列教程终章