Merkel细胞癌耐药性揭示研究小组
作为完整单细胞转录组分析实战的第⼀步,原始数据的下载和预处理是尤为重要的。
GEO数据库SRA数据
- 作者相关团队将第一名发现患者的单细胞RNA测序数据提交给国家生物技术信息基因表达综合中心(NCBI GEO),加入GSE 117988 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE117988.
- 第二名验证患者的单细胞RNA测序数据提交给NCBI GEO,加入GSE 118056[https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE118056]
我们在作者提供的GSE序号链接中下载十份测序结果集
如图所示(其中发现患者前六份,验证患者后四份)
-
SRA toolkit工具:NCBI 官⽅开发的 SRA ⼯具,⽬前最新版为 3.0.2,下载链接为SRA toolk.3.0.2-centos_linux64
我们在服务器中配置该工具软件,在NCBI提供下载链接
wget -c https://ftp�trace.ncbi.nlm.nih.gov/sra/sdk/3.0.2/sratoolkit.3.0.2-
centos_linux64.tar.gz
## -c参数表示如果下载暂停,下次执行此命令将会继续上次的下载,不用再重新下载
tar -zxvf sratoolkit.3.0.2-centos_linux64.tar.gz
echo 'export PATH=~/contest/biosofts/sratoolkit.3.0.2-
centos_linux64/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
##解压并配置环境
- 根据十份SRA文件⽣成含有SRR⽂件号的txt⽂件,批量处理下载
## 新建一个文件夹,用于存放SRA文件
mkdir SRA
cd SRA
## 新建一个txt文件,向里面写入所需要下载的SRR号
vim SRR_list.txt
# <i> 按i键进行写入
## 粘贴SRR号
# <esc> 粘贴完成后按下esc键退出编辑模式
# <:><w><q> 再按下英文冒号键,进入命令模式,再输入wq,enter回车
## w代表保存,q代表退出,wq即保存并退出
nohup prefetch --option-file SRR_list.txt &
#执行下载命令
fastq-dump 是SRA toolkit软件中的⼀个⼯具,专⻔⽤来解压SRA⽂件,其含有以下⼏种参
数:
--split-spot : 将双端测序分为两份,但是都放在同⼀个⽂件中
--split-files : 将双端测序分为两份,放在不同的⽂件,但是对于⼀⽅有⽽⼀⽅没有的
reads直接丢弃
--split-3 : 将双端测序分为两份,放在不同的⽂件,但是对于⼀⽅有⽽⼀⽅没有的
reads会单独放在⼀个⽂件夹⾥
--gzip : 输出gz压缩格式⽂件,节省空间,但运⾏时间较⻓
-O : 设置输出的⽂件路径,后接输出⽂件路径
conda安装parallel-fastq-dump
conda install -c bioconda parallel-fastq-dump
- 编写shell脚本批量解压
vim parallel-fastq-dump.sh
# <i>
#!/bin/bash ## "#!" 是一个约定的标记,它告诉系统这个脚本需要什么解释器来执
行,即使用哪一种 Shell
for i in *.sra ## 遍历该文件夹下的所有sra文件
do
parallel-fastq-dump --gzip -t 6 --split-files -s $i -O ./fastq/
done
bash parallel-fastq-dump.sh