来源:https://www.jianshu.com/p/da75f0753178
<meta charset="utf-8">
<article class="_2rhmJa">
高通量数据库的数据,下载方法有三种:
- 常规下载(wget,迅雷、IDM)
- aspera
- SRA Toolkit 的prefetch
wget下载数据速度很慢,比较容易断。
wget -c 下载地址
保持断点下载
下载数据库
优先选择 快速下载fq格式的数据,EBI数据库下载。
从EBI数据库直接获取到aspera的下载代码,复制到本地服务器,可以直接运行。
cd ~/wes_cancer/project/1.raw_fq
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR318/008/SRR3182418/SRR3182418_2.fastq.gz .
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR318/003/SRR3182423/SRR3182423_1.fastq.gz .
注意:上述是apera的下载格式,最后面的.
代表保存的路径是本目录,一定不能省略,不然会报错。
网络有时候会提示SSH或者UDP错误,可能是服务器的33001端口没有开,打开这个端口即可。
不推荐 下载原始的SRA格式,NCBI数据库
在NCBI数据库会获取到Accession List里面是SRR的列表。
使用prefetch下载,因为ascp下载NCBI的数据时,会报ssh或udp错误。
##单行手动下载
prefetch SRR3182423
##批量自动化下载
cat SRR_Acc_List.txt | while read id
do
prefetch ${id} -O ./
done
数据格式
SRA数据格式,是NCBI数据库的格式,我们下载之后,需要自己手动转换成fq格式。
SRA的数据是每一个SRR数据,是一个文件夹。
</article>
3人点赞
作者:wo_monic
链接:https://www.jianshu.com/p/da75f0753178
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。