转录组数据分析前准备——SRA数据下载及整理

SRA数据下载

近期下载SRA数据，应用linux子系统下载极其不顺利。果断放弃，下面介绍两种亲测好用的办法。

方法1 windows下使用SRA Toolkit下载

首先在官网下载SRA Toolkit windows版本软件。

Fig.1

然后解压，安装。

在windows命令行（CMD）中运行代码#存储路径\sratoolkit.2.11.0-win64\bin\vdb-config --interactive

进入安装界面

Fig.2

一般软件的安装程序就是自定义安装还是默认安装。为了防止各种插件出错，保险起见，选择默认。按上下键选择，按“s”保存，再按“exit”退出。

然后运行代码#存储路径\sratoolkit.2.11.0-win64\bin\prefetch -h查看是否安装成功。

Fig.3

如图所示既是安装成功

下载数据很方便，进入SRA数据库，选择要下载的数据，下载其SRR_Acc_List.txt文件，在数据存储目录然后运行代码

#存储路径\sratoolkit.2.11.1-win64\bin\prefetch.exe --option-file SRR_Acc_List.txt即可

按照以下方法可找到SRR_Acc_List.txt文件。

第一步选择数据点击红框位置

Fig.4

第二步进入下图页面后点击红框位置另存为SRR_Acc_List.txt文件至数据存储路径

Fig.5

数据下载开始下载会是这样，最后等待下载完成就好了。

Fig.6

方法2 使用sra-explorer下载

SRA Explorer可以用来生成SRA数据下载命令

接着上面介绍的，选好数据后，可以找到数据编号（GSE号或SRA数据号都可以，例如上面的就是GSE176393或SRP323246）输入搜索框。操作如下图。

Fig.7

完成上述三步后会出现这个。

Fig.8

这里我们可以看到很多关于各种数据类型的URL，你可以选择直接下载FASTQ格式文件，也可以选择下载SRA文件。我选择直接下载fastq格式文件，方便操作。

Fig.9

出现下载命令后有两个选择，1. 比较笨，在linux子系统中一个一个运行。2. 将命令复制进一个.sh中当做一个shell脚本批量下载。

vim download.sh
nohup bash download.sh & #后台远行 运行情况写入nohup.out文件中

以上方法看大家个人爱好使用，只要网络环境好均可下载。

数据整理

如果使用方法二下载，可直接使用进行后续分析

如果使用方法一下载，会将.sra数据存入以数据编号建立的文件夹中，需要先将数据全部整理入一个文件夹进行操作，这样会方便很多。

我的代码如下

##设置一个循环可以批量操作
mkdir download
cat SRR_Acc_List.txt | while read line
do
mv $line/$line.sra download/$line.sra
done

Fig.10

随后应用fasterq-dump将.sra数据转换为.fastq数据，也是批量操作，我的代码。

fasterq-dump -h

Usage: fasterq-dump [ options ] [ accessions(s)... ]

Parameters:

  accessions(s)                    list of accessions to process

Options:

  -o|--outfile <path>              full path of outputfile (overrides usage
                                     of current directory and given accession)
  -O|--outdir <path>               path for outputfile (overrides usage of
                                     current directory, but uses given
                                     accession)
  -b|--bufsize <size>              size of file-buffer (dflt=1MB, takes
                                     number or number and unit where unit is
                                     one of (K|M|G) case-insensitive)
  -c|--curcache <size>             size of cursor-cache (dflt=10MB, takes
                                     number or number and unit where unit is
                                     one of (K|M|G) case-insensitive)
  -m|--mem <size>                  memory limit for sorting (dflt=100MB,
                                     takes number or number and unit where
                                     unit is one of (K|M|G) case-insensitive)
  -t|--temp <path>                 path to directory for temp. files
                                     (dflt=current dir.)
  -e|--threads <count>             how many threads to use (dflt=6)
  -p|--progress                    show progress (not possible if stdout used)
  -x|--details                     print details of all options selected
  -s|--split-spot                  split spots into reads
  -S|--split-files                 write reads into different files
  -3|--split-3                     writes single reads into special file
     --concatenate-reads           writes whole spots into one file
  -Z|--stdout                      print output to stdout
  -f|--force                       force overwrite of existing file(s)
  -N|--rowid-as-name               use rowid as name (avoids using the name
                                     column)
     --skip-technical              skip technical reads
     --include-technical           explicitly include technical reads
  -P|--print-read-nr               include read-number in defline
  -M|--min-read-len <count>        filter by sequence-lenght
     --table <name>                which seq-table to use in case of pacbio
     --strict                      terminate on invalid read
  -B|--bases <bases>               filter output by matching against given
                                     bases
  -A|--append                      append to output-file, instead of
                                     overwriting it
     --ngc <path>                  <path> to ngc file
     --perm <path>                 <path> to permission file
     --location <location>         location in cloud
     --cart <path>                 <path> to cart file
  -V|--version                     Display the version of the program
  -v|--verbose                     Increase the verbosity of the program
                                     status messages. Use multiple times for
                                     more verbosity.
  -L|--log-level <level>           Logging level as number or enum string.
                                     One of
                                     (fatal|sys|int|err|warn|info|debug) or
                                     (0-6) Current/default is warn
     --option-file file            Read more options and parameters from the
                                     file.
  -h|--help                        print this message

"fasterq-dump" version 2.11.0

通过help文件可知，由于我们的数据是双端测序，所以需要把文件分成两个，故设置参数--split-files；由于fasterq-dump不能直接生成.gz压缩文件，所以后续还需手动压缩节省分析数据所用的空间。

mkdir rawdata 建立一个存储数据的文件夹

##结合目的选择好参数，开始批量转换
cat SRR_Acc_List.txt | while read line
do
fasterq-dump -e 12 --split-files download/$line.sra -O rawdata
done

Fig.11

faster-dump的运行速度很快。接下来用这个命令gzip *.fastq就可以批量压缩。

Fig.12

得到这样的数据就可以很方便的进行下面的分析了。😁😁😁

最后编辑于：2022.11.07 08:16:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,295评论 6赞 512
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,928评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,682评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,209评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,237评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,965评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,586评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,487评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,016评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,136评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,271评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,948评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,619评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,139评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,252评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,598评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,267评论 2赞 358

转录组数据分析前准备——SRA数据下载及整理

SRA数据下载

方法1 windows下使用SRA Toolkit下载

方法2 使用sra-explorer下载

数据整理

推荐阅读更多精彩内容