文件下载

数据下载：

SRA：

第一步先看文件密钥并激活环境

conda activate rna

ls ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh

结果报出来是：/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh

第二🙅下载：进入ENA数据库下载:ENA（https://www.ebi.ac.uk/ena/browser/home）并传输到文件夹sra下

第三步：

将目前文件转换到要下载的文件下

cd /root/project/Human-16-Asthma-Trans/rawdate/sra

下载单个文件SRA格式

ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR103/000/SRR1039510 .后面@要换成自己下载的文件

下载gz格式

ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz .后面@要换成自己下载的文件格式

批量下载：

先将批量下载模式转换到.sh文件中

第一步：先得到sra.url文件，如果行尾存在特殊字符，运行 sed -i "s/\s*$//g" sra.url 去掉行尾特殊字符

cat filereport_read_run_PRJNA229998_tsv.txt |awk 'NR>1{print $NF}' >sra.url其中文件名应该替换

第二步：将批量下载的命令转到.sh

1outputdir=/project/Human-16-Asthma-Trans/rawdata/sra

2cat sra.url |while read id do echo "ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}" done >sra.download.sh

第三步查看

less -s sra.sra.download.sh

第四步运行

nohup bash sra.download.sh >sra.download.log &

第五步：查看进度

jobs或ps aux 或top或ps -p <PID>

下载完成后数据检验

awk 'NR>1{print $11"\t"$4}' filereport_read_run_PRJNA229998_tsv.txt >md5.txt，其中md5的数据需要看一下是多少行

d5sum -c md5.txt

最后一步是转换

首先需要新建一个fastq文件:要在/project/Human-16-Asthma-Trans/rawdata下新建，与sra是一个等级

mkdir fastq

fqdir=/project/Human-16-Asthma-Trans/rawdata/fastq

第三步单个转换

fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} SRR1039510

或批量转换

将样本名写成一个文件：命名为sample.TD.

cat sample.ID | while read id

echo "fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} ${id}

done >sra2fq.sh实际上自己要分析就不要-x 25000

提交到后台运行

nohup sh sra2fq.sh>sra2fq.log &

最后查看：zless -S SRR1039510_1.fastq.gz

查看sra文件：ls *.sra

杀死运行的进程：

查看进程：jobs, top, /ps fx

推荐阅读更多精彩内容