数据下载:
SRA:
第一步先看文件密钥并激活环境
conda activate rna
ls ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh
结果报出来是:/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh
第二🙅下载:进入ENA数据库下载:ENA(https://www.ebi.ac.uk/ena/browser/home)并传输到文件夹sra下
第三步:
将目前文件转换到要下载的文件下
cd /root/project/Human-16-Asthma-Trans/rawdate/sra
下载单个文件SRA格式
ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR103/000/SRR1039510 .后面@要换成自己下载的文件
下载gz格式
ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz .后面@要换成自己下载的文件格式
批量下载:
先将批量下载模式转换到.sh文件中
第一步:先得到sra.url文件,如果行尾存在特殊字符,运行 sed -i "s/\s*$//g" sra.url 去掉行尾特殊字符
cat filereport_read_run_PRJNA229998_tsv.txt |awk 'NR>1{print $NF}' >sra.url其中文件名应该替换
第二步:将批量下载的命令转到.sh
1outputdir=/project/Human-16-Asthma-Trans/rawdata/sra
2cat sra.url |while read id do echo "ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}" done >sra.download.sh
第三步查看
less -s sra.sra.download.sh
第四步运行
nohup bash sra.download.sh >sra.download.log &
第五步:查看进度
jobs或ps aux 或top或ps -p <PID>
下载完成后数据检验
awk 'NR>1{print $11"\t"$4}' filereport_read_run_PRJNA229998_tsv.txt >md5.txt,其中md5的数据需要看一下是多少行
d5sum -c md5.txt
最后一步是转换
首先需要新建一个fastq文件:要在/project/Human-16-Asthma-Trans/rawdata下新建,与sra是一个等级
mkdir fastq
fqdir=/project/Human-16-Asthma-Trans/rawdata/fastq
第三步单个转换
fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} SRR1039510
或批量转换
将样本名写成一个文件:命名为sample.TD.
cat sample.ID | while read id
do
echo "fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} ${id}
done >sra2fq.sh实际上自己要分析就不要-x 25000
提交到后台运行
nohup sh sra2fq.sh>sra2fq.log &
最后查看:zless -S SRR1039510_1.fastq.gz
查看sra文件:ls *.sra
杀死运行的进程:
查看进程:jobs, top, /ps fx