科研小白学习笔记:通过linux服务器下载sra文件

  通过linux服务器终端下载转录组测序文件的方式有很多,不同数据库可能需要执行不同的下载代码,我在这简单梳理一下。(因为刚接触linux系统,肯定会存在纰漏,敬请指正!)

1.NCBI数据库

我首先尝试的是

wget https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR11955376/SRR11955376

然而,这种方式下载速度非常慢。上网查询后发现很多人推荐使用sratoolkit来下载NCBI上的sra文件(下载链接:https://www.ncbi.nlm.nih.gov/home/tools/)

下载安装sratoolkit后输入:

prefetch SRP133642

可直接下载目标文件

注:很多帖子说可以用prefetch+aspera的方式高速下载sra文件,但我一直没成功。可能是因为ncbi已经不支持aspera下载sra文件的方式(参考链接:https://github.com/ncbi/sra-tools/issues/255

#批量下载

从ncbi的sra数据库上下载access_list.txt文件

然后执行:

cat SRR_Acc_List.txt |while read id;do (prefetch $id -X 100G );done #可加nohup挂后台下载


2.ENA数据库

网上很多人推荐从ena下载sra数据,不仅是因为ena仍然支持aspera高速下载,而且可以直接下载fastq文件,不需要后续sra文件到fastq文件转换。

下载代码:

ascp -QT -l 300m -P33001  \

-i ~/miniconda3/envs/cellranger/etc/asperaweb_id_dsa.openssh  \

era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR180/001/SRR1805931/SRR1805931_1.fastq.gz .

#批量下载

#进入ena数据库下载TSV文件,整理成如下形式

#fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_1.fastq.gz

  fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/009/SRR1039509/SRR1039509_1.fastq.gz

  fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz

  fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_2.fastq.gz

  ....

cat fq.txt |while read id

do

ascp -QT -l 300m -P33001  \

-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh  \

era-fasp@$id  .

done

(ena数据库默认的ascp id是era-fasp)


3.GSA数据库

GSA数据库是中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库。与以上两种数据库类似,主要用于存储测序文件。

下载方式:

#根据项目号查找项目

wget -c -r -np -k -L -p  ftp://download.big.ac.cn/gsa/[GSA_ID]/ #按项目号搜索后可以得到下载链接,替换即可

#wget批量下载

wget -i file1.txt

(file.txt:将数据下载链接汇总为一个txt文件)

#使用aspera下载(未成功,代码执行后需要密码,可能需要管理员权限?)

ascp -P33001 -i ~/miniconda3/envs/cellranger/etc/asperaweb_id_dsa.openssh -Q -T -l 200m -k1 -d aspera01@download.cncb.ac.cn:gsa2/CRA006042 ~/scrna/raw/PRJCA008174/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容