GEO数据库:基因表达仓库(Gene Expression Omnibus),来源于芯片数据、SAGE、高通量测序mRNA、IncRNA等。
数据存放:四种类型GSE、GSM、GPL、GDS
- GSE:将整个项目一系列样本和平台联系起来,例如:GSE17708(GSE+数字),GSE=GPL+GSM
- GSM:对应一个样本的数据,只对应一个平台,表示每个样本操作环境。
- GPL : 平台信息,包含微列阵或测序平台简要描述。
- GDS: 同一个平台数据集
通过GSE号获得SRA(short Read Archive),里面包括原始数据、实验项目、实验设计、测序平台、样本数据等信息,结构如下:
- 第一级:课题study:SRP表示,一个study包括多个experiment。
- 第二级:样本Samples:SRS表示
- 第三级:实验experiment:用SRX表示数据如何产生的,包括特定样本的文库测序信息。
- 第四级:数据RUN:SRR表示利用测序手段得到的原始数据。
(1)SRA里面存储整个项目的各种信息,可以看到用什么测序仪,多少RUN,数据量多少,进一步了解需要导出(按箭头操作)。
(2)获取编号
(3)服务器中存储编号
cat >srr.ids 选中复制编号,右键,enter回车,ctrl+c,粘贴完毕。
(4)配置下载软件
需要安装sra-tools ,aspera。
# 创建好后激活
conda activate RNA-seq
# 测试一下prefetch是否可以使用
prefetch #看出不出帮助文档即可,出来就是成功```
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安装
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目录下看看是不是存在了.aspera文件夹,有的话表示安装成功
cd && ls -a
# 将aspera软件加入环境变量,并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后检查ascp是不是能用了
ascp --help
(5)数据下载
cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done
附:踩坑记录
坑:下载SRA数据时prefetch默认下载通过https,速度感人,一个多小时一个文件都没下载完。
原因及解决:prefetch默认通过https,类似于网页下载,要通过aspera连用下载。它是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,相当于加速器。安装之后通过fasp下载。