这应该是全网第一篇记录ICGC数据下载软件安装的笔记。
- 由于icgc连接了世界多个数据库(云端)资源,所以架构比GDC复杂很多,conda也没有channel提供编译好的icgc-get
- icgc-get提供了ICGC数据库的搜索与下载功能,但它本身下载功能的实现需要特定的软件,也就是icgc-get包是ICGC与多个软件的连接器
- 因为hpc无root权限,尝试安装ICGC直接提供的压缩包安装软件失败,也不能用docker,所以只能一步一步把这些软件拼起来。我也是在逐步的摸索中了解ICGC数据库的布局以及数据下载的大致轮廓。
- ICGC本身的官方文档看似不错,实则很混乱,通过对比和研究可以真正理解如何下载、安装以及配置。几个重要doc
- 安装icgc-get
- github链接: https://github.com/icgc/icgc-get
- 克隆仓库,然后运行pip install -r ./requirements.txt
- 再运行pyinstaller --clean icgc-get-data.spec得到可执行文件(位于dist目录下)
- ICGC的数据存储在不同的repository中,不同的仓库有不同的下载工具,所以当在ICGC上搜索到想要下载的数据后,确定其仓库,安装好对应的客户端。
- Collaboratory和AWS使用客户端 score-client
- wget -O score-client.tar.gz https://artifacts.oicr.on.ca/artifactory/dcc-release/bio/overture/score-client/[RELEASE]/score-client-[RELEASE]-dist.tar.gz
- tar -xvzf score-client.tar.gz 软件位于bin下
- 实际要使用还要安装依赖
- The Score Client requires Java 8 to be installed. It has been tested using the Oracle distribution. The procedure for installing Java 8 will vary depending on the operating system and package manager used. 这里不能使用open JDK
- In order to use the mount feature, FUSE is required. On most Linux based systems this will require installing libfuse-dev and fuse packages. 这个应该是可选项,不过最好安装了。使用conda install -c jessetg/label/sbu-hpc libfuse安装
- GDC使用客户端gdc-client,这个没什么好说的,文档很多,也很简单。
- EGA 看https://ega-archive.org/download/using-ega-download-client#DownloadClient, 我暂时也用不到
- PDC这个仓库很重要,It is a secure data cloud that stores US PCAWG data. 它存了PCAWG很多样本的WGS数据,里面就有TCGA的!使用的客户端是Amazon Web Services Command Line Interface,需要follow https://docs.aws.amazon.com/cli/latest/userguide/installing.html进行安装,其实也使用pip,一句话pip install awscli --upgrade --user 安装完后要把执行文件添加到路径中去 export PATH=~/.local/bin:$PATH 。
- Collaboratory和AWS使用客户端 score-client
- 除了安装,另外一个重要点就是获取下载权限了。
看到一个相关报道,分享一下 AWS全新公共数据集助力癌症研究