Merkel细胞癌耐药性揭示研究小组
- 在这里是我们对本次任务进度的汇总,背景知识的消化以及遇到的问题
1. 背景知识介绍
- NCBI全称(National Center for Biotechnology Information),它是⼀个保存⼤规模平⾏测序原始数据以及⽐对信息和元数据 (metadata) 的数据库,⽬前所有已发表的⽂献中⾼通量测序数据基本都上传⾄此,⽅便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra⽂件格式保存的,SRA数据库可以⽤于搜索和展⽰SRA项⽬数据,包括SRA主⻚和 Entrez system,由 NCBI 负责维护。我们需要下载NCBI SRA数据库中的SRA⽂件。
- SRA数据库全称为Sequence Read Archive,存档来⾃各种⾼测序平台的原始测序数据和⽐对
信息,⽐如illumina。SRA数据库中主要有以下⼏种数据类型,分别为:
SRP:表⽰Study(研究课题),⼀个Study可以包含多个Experiment。
SRX:表⽰Experiment(实验设计),包含了Sample、测序平台、数据处理等信息。⼀
个Experiment可能包含⼀个或多个runs。
SRS:表⽰Samples(样品信息)。
SRR:表⽰Runs(测序结果集),表⽰测序仪运⾏所产⽣的reads。- GSE是GEO数据库中的⼀种数据类型,先来了解下GEO数据库,GEO数据库全称为Gene
Expression Omnibus,中⽂名称为⾼通量基因表达数据库。其主要有四种数据类型,分别
为:
GPL:表⽰Platform,记录测序或芯⽚的平台。
GDS:表⽰GEO DataSet,是GEO样本数据的精选集合。
GSE:表⽰Series,对应的是整个研究项⽬的系列的数据。
GSM:表⽰Sample,对应单个样品的数据信息
2. 疑难(这里主要写较难解决的问题)
Q1:使用prefetch --option-file命令批量下载SRA文件时无法执行
- 使用-h命令查看发现prefetch命令执行的版本为2.8.0,该命令的使用需要sratoolkit3.0.2版本 服务器中已下载3.0.2版本 不知道为什么命令的使用默认使用2.8.0
由于前期下载的miniconda软件包中包含了prefetch 但是为2.8.0,使用prefetch批量下载时需要自行带上前面的使用路径
Q2:安装sratoolkit时执行bin/fastq-dump报错
在执行vdb-config --interactive命令时,存在环境变量配置出现问题,即配置的版本没有及时更新导致出错,或者没有在sratoolkit文件夹下的bin文件夹下运行./vdb-config --interactive 输入命令时也要注意空格的存在
Q3:批量处理的命令
使用awk '{print "**********(这里是处理的命令代码参数)}' (接上针对的文件可以是****.txt) > (这里接上运行的脚本文件****.bash) awk命令可以批量打印命令到指定位置运行,这里说明常用参数
--F fs or --field-separator fs
指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。
-v var=value or --asign var=value
赋值一个用户定义变量。
-f scripfile or --file scriptfile
从脚本文件中读取awk命令。批量下载SRA文件,prefetch 命令提供了⼀个批量下载的参数,即 `--option-file ,后⾯再接上含有多个SRR号的txt⽂件 prefetch --option-file SRR_list.txt下面是生成的txt文件
image.png
Q4:针对三种解压方法参数的比较
- time命令可返回后接命令运行完成后所花费的时间
fastq-dump 命令解压SRA⽂件
fastq-dump 是SRA toolkit软件中的⼀个⼯具,专⻔⽤来解压SRA⽂件,其含有以下⼏种参数:
--split-spot : 将双端测序分为两份,但是都放在同⼀个⽂件中
--split-files : 将双端测序分为两份,放在不同的⽂件,但是对于⼀⽅有⽽⼀⽅没有的reads直接丢弃
--split-3 : 将双端测序分为两份,放在不同的⽂件,但是对于⼀⽅有⽽⼀⽅没有的
reads会单独放在⼀个⽂件夹⾥
--gzip : 输出gz压缩格式⽂件,节省空间,但运⾏时间较⻓
-O : 设置输出的⽂件路径,后接输出⽂件路径
fastq-dump --gzip --split-files SRR_id.sra -O <输出路径>
下面是测试截图
image.png
fasterq-dump 命令解压SRA⽂件
fasterq-dump 也是SRA toolkit软件中的⼀个⼯具,其解压速度较 fastq-dump 有很⼤提
升,可以多线程进⾏解压操作,参数与 fastq-dump 基本相同,但不⽀持 --gzip 参数,此外还多了部分参数:
-p : 显⽰解压的过程
虽然 fasterq-dump 命令解压速度较快,但其有⼀个缺点,即不⽀持输出压缩格式⽂件,这
会导致直接输出的fastq⽂件占⽤内存较⼤。如果服务器内存较⼩,不建议使⽤e : 指定解压时所使⽤的线程数
fasterq-dump -e 24 --split-files SRR_id.sra -O <输出路径>
下面是测试截图
parallel-fastq-dump 命令解压SRA⽂件
parallel-fastq-dump 命令保留 fasterq-dump 处理速度快这个优点,弥补了其不能⽣成压缩⽂件的缺点。其参数与上述两个命令基本相同,只是指定线程的命令参数变成了 -t ,SRA⽂件前需要加 -s 参数。该命令依赖于 fastq-dump 命令,需要在安装 SRA toolkit 的基础上再进⾏安装 parallel-fastq-dump,使用conda环境安装 conda install -c bioconda parallel-fastq-dump
parallel-fastq-dump -t 24 --gzip --split-files -s SRR_id.sra -O <输出路径>
下面是测试截图
image.png
Q5:针对解压参数的探索调试
因为我们所下载的SRA⽂件是基于10X测序技术得到的,解压后应该⽣成三个⽂件。
我们测试之后发现经过对⽐,我们发现要想得到三个输出⽂件,需要使⽤ --split-files 参数,对于10X的测序⽂件,需要再加上 --include-technical 参数才行。同时 我们发现fasterq-dump 命令确实⽐ fastq-dump 命令快了很多,但同时也有缺陷,因为其不能⽣成压缩格式的fastq⽂件,因此对存储空间有较高要求,parallel-fastq-dump 命令的效果是最好的,既提升了速度,⼜可以⽣成压缩⽂件。所以我们使⽤此命令来进⾏SRA⽂件的解压
Q6:使用parallel-fastq-dump 命令解压SRA失败报错
我在对十份SRA测序文件进行解压时发现只有第一名患者的六份SRA文件可以成功运行,而第二名患者却不行,检查环境变量配置没有发现错误,经检查发现我的prefetch版本过低重装parallel-fastq-dump 软件命令依旧不行
后来调试测试发现我与小组其他成员不同在于我使用anaconda,其他人安装的是miniconda,anaconda在安装parallel-fastq-dump 时配套安装了低版本的prefetch,而作者相关团队在对两名患者的测序数据进行处理时使用的软件已经发生了迭代,旧版本的解压命令已经不适用于对第二名患者测序数据的解压,为此使用anaconda安装parallel-fastq-dump 时需要加上参数no--deps,调试后再次运行,成功了