登录注册写文章

数据下载预处理

月光不回答

数据下载预处理

Merkel细胞癌耐药性揭示研究小组

作为完整单细胞转录组分析实战的第⼀步，原始数据的下载和预处理是尤为重要的。

GEO数据库SRA数据

作者相关团队将第一名发现患者的单细胞RNA测序数据提交给国家生物技术信息基因表达综合中心（NCBI GEO），加入GSE 117988 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE117988.
第二名验证患者的单细胞RNA测序数据提交给NCBI GEO，加入GSE 118056[https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE118056]
我们在作者提供的GSE序号链接中下载十份测序结果集

如图所示（其中发现患者前六份，验证患者后四份）

image.png

image.png

SRA toolkit工具：NCBI 官⽅开发的 SRA ⼯具，⽬前最新版为 3.0.2，下载链接为SRA toolk.3.0.2-centos_linux64
我们在服务器中配置该工具软件，在NCBI提供下载链接

image.png

wget -c https://ftp�trace.ncbi.nlm.nih.gov/sra/sdk/3.0.2/sratoolkit.3.0.2-
centos_linux64.tar.gz
## -c参数表示如果下载暂停，下次执行此命令将会继续上次的下载，不用再重新下载
tar -zxvf sratoolkit.3.0.2-centos_linux64.tar.gz
echo 'export PATH=~/contest/biosofts/sratoolkit.3.0.2-
centos_linux64/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
##解压并配置环境

根据十份SRA文件⽣成含有SRR⽂件号的txt⽂件，批量处理下载

## 新建一个文件夹，用于存放SRA文件
mkdir SRA
cd SRA
## 新建一个txt文件，向里面写入所需要下载的SRR号
vim SRR_list.txt
# <i> 按i键进行写入
## 粘贴SRR号
# <esc> 粘贴完成后按下esc键退出编辑模式
# <:><w><q> 再按下英文冒号键，进入命令模式，再输入wq，enter回车
## w代表保存，q代表退出，wq即保存并退出

nohup prefetch --option-file SRR_list.txt &
#执行下载命令

fastq-dump 是SRA toolkit软件中的⼀个⼯具，专⻔⽤来解压SRA⽂件，其含有以下⼏种参
数：
--split-spot : 将双端测序分为两份,但是都放在同⼀个⽂件中
--split-files : 将双端测序分为两份,放在不同的⽂件,但是对于⼀⽅有⽽⼀⽅没有的
reads直接丢弃
--split-3 : 将双端测序分为两份,放在不同的⽂件,但是对于⼀⽅有⽽⼀⽅没有的
reads会单独放在⼀个⽂件夹⾥
--gzip : 输出gz压缩格式⽂件，节省空间，但运⾏时间较⻓
-O : 设置输出的⽂件路径，后接输出⽂件路径
conda安装parallel-fastq-dump
conda install -c bioconda parallel-fastq-dump

编写shell脚本批量解压

vim parallel-fastq-dump.sh
# <i>
#!/bin/bash ## "#!" 是一个约定的标记，它告诉系统这个脚本需要什么解释器来执
行，即使用哪一种 Shell
for i in *.sra ## 遍历该文件夹下的所有sra文件
do
parallel-fastq-dump --gzip -t 6 --split-files -s $i -O ./fastq/
done

bash parallel-fastq-dump.sh

至此我们完成了单细胞转录组分析实战的数据的下载解压，在另一份附件中集中写了我们小组在此阶段遇到的问题及对三种解压工具的比较

最后编辑于：2023.03.12 19:36:31

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

RNA-seq练习第一部分（原始数据下载，提取fastq文件，fastqc质控）
原始数据来源于这篇文章https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi...
生信start_site阅读 14,054评论 1赞 20
aspera: 如何快速下载测序原始数据(raw data)
作者：木同、毛毛更多精彩内容请微-信搜索 “生信学社” 公·众·号，点击关·注。回复“ngs201207”，...
生信学社阅读 9,268评论 1赞 13

Bulk RNAseq上游比对2：下载数据、质控
Bulk RNAseq上游比对1：大致流程与conda环境 - 简书 (jianshu.com)[https://...
小贝学生信阅读 5,644评论 0赞 2
Python单细胞测序分析教程 - 2| 下载测序数据并处理为scanpy可读取的格式
本教程介绍了在GEO数据库中下载单细胞数据集的方法，并进一步处理为scanpy可读取的格式。第一步：GEO数据库...
切瓜少年阅读 14,939评论 0赞 16
RNAseq002 转录组入门(2) ：数据下载
1 获取文章数据 1.1 获得文章数据地址 AKAP95 regulates splicing through s...
caoqiansheng阅读 11,224评论 1赞 10

友情链接更多精彩内容

赞1赞

赞赏

手机看全文