qc-数据下载与格式转换

在进行上游分析之前,我们需要进行原始数据的获取,其中就包括去各大数据库下载原始数据

1. 原始数据的下载

  • wget
# 根据数据链接直接下载
wget https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR19187641/SRR19187641
# 可以根据链接进行批量下载
wget -i sra.txt

批量生成数据链接再下载

  • prefetch
# 更高效、更快捷地下载
prefetch SRR19187641
prefetch --option-file sra.txt -O output_directory

prefetch命令下载SRA文件
SRA Toolkit - prefetch 快速下载NCBI SRA数据
sratoolkits软件的安装 cdb-config:command not found 解决方法 - 美洲豹2018 - 博客园

  • Aspera

下载ENA数据库当中的原始数据,强烈推荐Aspera这个软件

使用ebi数据库直接下载fastq测序数据的改进脚本 | 生信菜鸟团
Aspera下载安装使用
从NCBI-SRA和EBI-ENA数据库下载数据
2021-02-14 ascp下载ENA数据库文件
How to Download Data Files — ENA Training Modules 1 documentation (ena-docs.readthedocs.io)

2. 格式转换(sra转为fastq)

fastq-dump正在被淘汰,推荐使用fasterq-dump,如果多线程处理推荐使用pfastq-dump,但是都需要先配置好sratoolkit

sra转fastq笔记(fastq-dump、fasterq-dump和parallel-fastq-dump)
HowTo: fasterq dump · ncbi/sra-tools Wiki · GitHub
[工具] pfastq-dump 并行版的fastq-dump

# 批量处理方法一
for i in $(ls rawdata/SRR*)
do
    fastq-dump --split-files --gzip ${i##*/} -O rawdata/
done

# 批量处理方法二
cd rawdata/
for base in SRR*
do
    echo $base
    fastq-dump --split-files ${base}
done
cd ../

linux shell获取文件名和路径,basename/dirname/${}运用_ksj367043706的博客-CSDN博客_shell 文件名称

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容