数据下载预处理--疑难及问题

Merkel细胞癌耐药性揭示研究小组

在这里是我们对本次任务进度的汇总，背景知识的消化以及遇到的问题

1. 背景知识介绍

NCBI全称（National Center for Biotechnology Information），它是⼀个保存⼤规模平⾏测序原始数据以及⽐对信息和元数据 (metadata) 的数据库，⽬前所有已发表的⽂献中⾼通量测序数据基本都上传⾄此，⽅便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra⽂件格式保存的，SRA数据库可以⽤于搜索和展⽰SRA项⽬数据，包括SRA主⻚和 Entrez system，由 NCBI 负责维护。我们需要下载NCBI SRA数据库中的SRA⽂件。

SRA数据库全称为Sequence Read Archive，存档来⾃各种⾼测序平台的原始测序数据和⽐对
信息，⽐如illumina。SRA数据库中主要有以下⼏种数据类型，分别为：
SRP：表⽰Study（研究课题），⼀个Study可以包含多个Experiment。
SRX：表⽰Experiment（实验设计），包含了Sample、测序平台、数据处理等信息。⼀
个Experiment可能包含⼀个或多个runs。
SRS：表⽰Samples（样品信息）。
SRR：表⽰Runs（测序结果集），表⽰测序仪运⾏所产⽣的reads。

GSE是GEO数据库中的⼀种数据类型，先来了解下GEO数据库，GEO数据库全称为Gene
Expression Omnibus，中⽂名称为⾼通量基因表达数据库。其主要有四种数据类型，分别
为：
GPL：表⽰Platform，记录测序或芯⽚的平台。
GDS：表⽰GEO DataSet，是GEO样本数据的精选集合。
GSE：表⽰Series，对应的是整个研究项⽬的系列的数据。
GSM：表⽰Sample，对应单个样品的数据信息

2. 疑难(这里主要写较难解决的问题）

Q1：使用prefetch --option-file命令批量下载SRA文件时无法执行

image.png

使用-h命令查看发现prefetch命令执行的版本为2.8.0，该命令的使用需要sratoolkit3.0.2版本服务器中已下载3.0.2版本不知道为什么命令的使用默认使用2.8.0
由于前期下载的miniconda软件包中包含了prefetch 但是为2.8.0，使用prefetch批量下载时需要自行带上前面的使用路径

Q2：安装sratoolkit时执行bin/fastq-dump报错

image.png

在执行vdb-config --interactive命令时，存在环境变量配置出现问题，即配置的版本没有及时更新导致出错，或者没有在sratoolkit文件夹下的bin文件夹下运行./vdb-config --interactive 输入命令时也要注意空格的存在

Q3：批量处理的命令

使用awk '{print "**********（这里是处理的命令代码参数）}' (接上针对的文件可以是****.txt) > (这里接上运行的脚本文件****.bash) awk命令可以批量打印命令到指定位置运行，这里说明常用参数
--F fs or --field-separator fs
指定输入文件折分隔符，fs是一个字符串或者是一个正则表达式，如-F:。
-v var=value or --asign var=value
赋值一个用户定义变量。
-f scripfile or --file scriptfile
从脚本文件中读取awk命令。
批量下载SRA文件，prefetch 命令提供了⼀个批量下载的参数，即 `--option-file ，后⾯再接上含有多个SRR号的txt⽂件 prefetch --option-file SRR_list.txt下面是生成的txt文件

image.png

Q4：针对三种解压方法参数的比较

time命令可返回后接命令运行完成后所花费的时间

fastq-dump 命令解压SRA⽂件
fastq-dump 是SRA toolkit软件中的⼀个⼯具，专⻔⽤来解压SRA⽂件，其含有以下⼏种参数：
--split-spot : 将双端测序分为两份,但是都放在同⼀个⽂件中
--split-files : 将双端测序分为两份,放在不同的⽂件,但是对于⼀⽅有⽽⼀⽅没有的reads直接丢弃
--split-3 : 将双端测序分为两份,放在不同的⽂件,但是对于⼀⽅有⽽⼀⽅没有的
reads会单独放在⼀个⽂件夹⾥
--gzip : 输出gz压缩格式⽂件，节省空间，但运⾏时间较⻓
-O : 设置输出的⽂件路径，后接输出⽂件路径
fastq-dump --gzip --split-files SRR_id.sra -O <输出路径>
下面是测试截图

image.png

fasterq-dump 命令解压SRA⽂件
fasterq-dump 也是SRA toolkit软件中的⼀个⼯具，其解压速度较 fastq-dump 有很⼤提
升，可以多线程进⾏解压操作，参数与 fastq-dump 基本相同，但不⽀持 --gzip 参数，此外还多了部分参数：
-p : 显⽰解压的过程
虽然 fasterq-dump 命令解压速度较快，但其有⼀个缺点，即不⽀持输出压缩格式⽂件，这

会导致直接输出的fastq⽂件占⽤内存较⼤。如果服务器内存较⼩，不建议使⽤e : 指定解压时所使⽤的线程数
fasterq-dump -e 24 --split-files SRR_id.sra -O <输出路径>
下面是测试截图

image.png

parallel-fastq-dump 命令解压SRA⽂件
parallel-fastq-dump 命令保留 fasterq-dump 处理速度快这个优点，弥补了其不能⽣成压缩⽂件的缺点。其参数与上述两个命令基本相同，只是指定线程的命令参数变成了 -t ，SRA⽂件前需要加 -s 参数。该命令依赖于 fastq-dump 命令，需要在安装 SRA toolkit 的基础上再进⾏安装 parallel-fastq-dump,使用conda环境安装 conda install -c bioconda parallel-fastq-dump
parallel-fastq-dump -t 24 --gzip --split-files -s SRR_id.sra -O <输出路径>
下面是测试截图

image.png

Q5：针对解压参数的探索调试

因为我们所下载的SRA⽂件是基于10X测序技术得到的，解压后应该⽣成三个⽂件。
我们测试之后发现经过对⽐，我们发现要想得到三个输出⽂件，需要使⽤ --split-files 参数，对于10X的测序⽂件，需要再加上 --include-technical 参数才行。同时我们发现fasterq-dump 命令确实⽐ fastq-dump 命令快了很多，但同时也有缺陷，因为其不能⽣成压缩格式的fastq⽂件，因此对存储空间有较高要求，parallel-fastq-dump 命令的效果是最好的，既提升了速度，⼜可以⽣成压缩⽂件。所以我们使⽤此命令来进⾏SRA⽂件的解压

Q6：使用parallel-fastq-dump 命令解压SRA失败报错

我在对十份SRA测序文件进行解压时发现只有第一名患者的六份SRA文件可以成功运行，而第二名患者却不行，检查环境变量配置没有发现错误，经检查发现我的prefetch版本过低重装parallel-fastq-dump 软件命令依旧不行

image.png

后来调试测试发现我与小组其他成员不同在于我使用anaconda，其他人安装的是miniconda，anaconda在安装parallel-fastq-dump 时配套安装了低版本的prefetch，而作者相关团队在对两名患者的测序数据进行处理时使用的软件已经发生了迭代，旧版本的解压命令已经不适用于对第二名患者测序数据的解压，为此使用anaconda安装parallel-fastq-dump 时需要加上参数no--deps，调试后再次运行，成功了

image.png

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,542评论 6赞 504
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,822评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,912评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,449评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,500评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,370评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,193评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,074评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,505评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,722评论 3赞 335
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,841评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,569评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,168评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,783评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,918评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,962评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,781评论 2赞 354

数据下载预处理--疑难及问题

1. 背景知识介绍

2. 疑难(这里主要写较难解决的问题）

Q1：使用prefetch --option-file命令批量下载SRA文件时无法执行

Q2：安装sratoolkit时执行bin/fastq-dump报错

Q3：批量处理的命令

Q4：针对三种解压方法参数的比较

Q5：针对解压参数的探索调试

Q6：使用parallel-fastq-dump 命令解压SRA失败报错

推荐阅读更多精彩内容