一、安装entrez-direct
直接使用命令$ conda install entrez-direct
,可能会报错:
可以使用如下方式进行安装:
1.进入网站https://anaconda.org/
2.搜索需要安装的包
3.选择合适的安装包
4.安装所示命令进行下载
二、批量获取数据的SRR号
#下载runinfo
esearch -db sra -query PRJNA944177 | efetch -format runinfo > runinfo.csv
#提取其中的SRR
cat runinfo.csv | cut -d, -f1 | grep SRR > ranids.txt
#查看获得的SRR号
cat ranids.txt
#可以查看更多信息,比如数据大小,类型,单端还是双端测序等
cat runinfo.csv | cut -d, -f1,8,13,16
#runinfo中并没有样本名称和SRR的对应关系,可以输入以下命令获得GSM编号与样本的对应关系。
esearch -db sra -query PRJNA944177 | efetch -format docsum > docsum.txt
cat docsum.txt | xtract -pattern DocumentSummary -element Title,Bioproject,Biosample,Run@acc
三、下载SRA序列
我写了一个脚本,首先创建脚本:
touch SRR.sh
脚本内容:
#!/bin/bash
for i in SRR23891522 SRR23891523 SRR23891520 SRR23891519 SRR23891521 SRR23891518
do
prefetch ${i}
done
运行脚本:
bash SRR.sh
四、解压SRA文件为fastq格式
我还是写脚本,首先创建脚本:
touch fastq_dump.sh
脚本内容:
#!/bin/bash
for i in SRR23891522 SRR23891523 SRR23891520 SRR23891519 SRR23891521 SRR23891518
do
fastq-dump --gzip --split-files ${i}
done
运行脚本:
bash fastq_dump.sh