如何用ENA下载GEO的原始数据

ENA数据路径下载

  • 在GEO页面找到BioProject或SRA的编号
GEO数据库页面

SRA数据库下载SRA文件还需要转换,
ENA数据库可以直接下载FASTQ文件,还有md5校验文件。

  • 打开ENA页面输入BioProject编号,随后点击Show Column Selection,选择想要下载的数据类型。
ENA数据库页面
  • 只需要勾选fastq_aspera和fastq_md5就行,其余的看自己的需要。最后点击TSV下载。

下载的TSV就是这样的表,我们之后会用到这里的路径。
例如,fasp.sra.ebi.ac.uk:/vol1/fastq/SRR138/075/SRR13858475/SRR13858475_1.fastq.gz

下载路径

Aspera软件工具安装

  • 通过conda下载Aspera软件
#通过conda下载
conda create -n download 
conda activate download 
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools
#查找aspera位置
which ascp 
#~/.conda/envs/download/bin/ascp
#从bin开始换成etc/asperaweb_id_dsa.openssh
#确认找到密钥位置
ls -lh ~/.conda/envs/download/etc/asperaweb_id_dsa.openssh
  • 输入密钥路径;在era-fasp@后输入之前表中的路径。就可以运行下载数据了。
ascp -QT -l 300m -P33001 \
-i ~/.conda/envs/download/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR138/075/SRR13858475/SRR13858475_1.fastq.gz ./
## 主要使用参数
#-v 详细模式
#-Q 用于自适应流量控制,磁盘限制所需
#-T 设置为无需加密传输
#-l 最大下载速度,一般设为500m
#-P TCP 端口,一般为33001
#-k 断点续传,通常设为 1
#-i 免密下载的密钥文件

批量下载可见:Aspera——利用SRR号批量高效下载FASTQ或SRA数据 - 知乎

md5验证

  • 准备md5.txt文件,第一列是之前TSV表中fastq_md5,第二列是对应的文件名(空格隔开就行)。
md5.txt
  • 用命令md5sum -c md5.txt验证文件的完整性,OK就表示是数据下载成功了。
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容