Linux中下载GEO数据库的SRA数据

一、安装entrez-direct

直接使用命令$ conda install entrez-direct,可能会报错:


可以使用如下方式进行安装:
1.进入网站https://anaconda.org/

2.搜索需要安装的包
3.选择合适的安装包

4.安装所示命令进行下载

二、批量获取数据的SRR号

#下载runinfo 
esearch -db sra -query PRJNA944177 | efetch -format runinfo > runinfo.csv 
#提取其中的SRR 
cat runinfo.csv | cut -d, -f1 | grep SRR > ranids.txt
#查看获得的SRR号
cat ranids.txt
#可以查看更多信息,比如数据大小,类型,单端还是双端测序等
cat runinfo.csv | cut -d, -f1,8,13,16
#runinfo中并没有样本名称和SRR的对应关系,可以输入以下命令获得GSM编号与样本的对应关系。
esearch -db sra -query PRJNA944177 | efetch -format docsum > docsum.txt
cat docsum.txt | xtract -pattern DocumentSummary -element Title,Bioproject,Biosample,Run@acc

三、下载SRA序列

我写了一个脚本,首先创建脚本:

touch SRR.sh

脚本内容:

#!/bin/bash
for i in SRR23891522 SRR23891523 SRR23891520 SRR23891519 SRR23891521 SRR23891518
do
        prefetch ${i}
done

运行脚本:

bash SRR.sh

四、解压SRA文件为fastq格式

我还是写脚本,首先创建脚本:

touch fastq_dump.sh

脚本内容:

#!/bin/bash
for i in SRR23891522 SRR23891523 SRR23891520 SRR23891519 SRR23891521 SRR23891518
do
        fastq-dump --gzip --split-files ${i}
done

运行脚本:

bash fastq_dump.sh
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容