文件下载

数据下载:

SRA:

第一步先看文件密钥并激活环境

conda activate rna

ls  ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh

结果报出来是:/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh

第二🙅下载:进入ENA数据库下载:ENA(https://www.ebi.ac.uk/ena/browser/home)并传输到文件夹sra下

第三步:

将目前文件转换到要下载的文件下

cd /root/project/Human-16-Asthma-Trans/rawdate/sra

下载单个文件SRA格式

ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR103/000/SRR1039510 .后面@要换成自己下载的文件

下载gz格式

ascp  -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz .后面@要换成自己下载的文件格式

批量下载:

先将批量下载模式转换到.sh文件中

第一步:先得到sra.url文件,如果行尾存在特殊字符,运行 sed -i "s/\s*$//g" sra.url 去掉行尾特殊字符

cat filereport_read_run_PRJNA229998_tsv.txt |awk 'NR>1{print $NF}' >sra.url其中文件名应该替换

第二步:将批量下载的命令转到.sh

1outputdir=/project/Human-16-Asthma-Trans/rawdata/sra

2cat  sra.url |while read id do echo "ascp -k 1 -QT -l 300m -P33001 -i ~/miniconda3/envs/rna/etc/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}" done >sra.download.sh

第三步查看

less -s sra.sra.download.sh

第四步运行

nohup bash sra.download.sh >sra.download.log &

第五步:查看进度

jobs或ps aux 或top或ps -p <PID>

下载完成后数据检验

awk 'NR>1{print $11"\t"$4}' filereport_read_run_PRJNA229998_tsv.txt >md5.txt,其中md5的数据需要看一下是多少行

d5sum -c md5.txt

最后一步是转换

首先需要新建一个fastq文件:要在/project/Human-16-Asthma-Trans/rawdata下新建,与sra是一个等级

mkdir fastq

fqdir=/project/Human-16-Asthma-Trans/rawdata/fastq

第三步单个转换

fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} SRR1039510

或批量转换

将样本名写成一个文件:命名为sample.TD.

cat sample.ID | while read id

do

echo "fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} ${id}

done >sra2fq.sh实际上自己要分析就不要-x 25000

提交到后台运行

nohup sh sra2fq.sh>sra2fq.log &

最后查看:zless -S SRR1039510_1.fastq.gz

查看sra文件:ls *.sra

杀死运行的进程:

查看进程:jobs, top, /ps fx

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

推荐阅读更多精彩内容