1，数据获得-从文献来

https://www.ncbi.nlm.nih.gov/geo/
根据文献里的GEO accession，输入上面网站，比如GSE50177，搜索到这组数据。
在sample这里可以看到六个数据，前两个是ChIP-seq的，后四个是RNAseq的。

image.png

点击下方SRA的编号： SRP029245。
从send to下拉菜单中选择file，RunInfo。之后下载一个文件名为：SraRunInfo.csv。用excel打开，可以找其中有用的两列Run和SampleName，不过这个samplename并不是我们需要的啊。
所以回到刚才界面，吧GSM...对应的文字名称拷贝到第三列——这个才是咱们理解的样本名嘛。然后把这个文件的title删掉，其他没用的列都删掉，只留两列有用的，保存成为SraRunInfo.txt，一定要是txt格式才行。

image.png

最后把SraRunInfo.txt文件上传到服务器 ~/rnaseq目录之下。

2. 安装SRAToolkit

conda activate py3.7
conda install sra-tools
fastq-dump -h #成功出现帮助文档

3. 下载sra转换为fastq格式

建立一个txt文本，改名为rnaseq-sra2fq.slurm ：输入下面代码

#!/bin/bash
#SBATCH --output=rnaseq-sra2fq.out
#SBATCH --error=rnaseq-sra2fq.err
#SBATCH --mail-type=end
#SBATCH --mail-user=zmeraner@126.com
module add Anaconda3/2020.02
source activate
conda activate py3.7 #激活3.7环境
#sra2fq
mkdir ~/rnaseq/rawdata
analysis_dir=~/rnaseq/rawdata
cat ~/rnaseq/SraRunInfo.txt | while read id
do
arr=($id)
srr=${arr[0]}
sample=${arr[1]}
prefetch $srr
fastq-dump -O $analysis_dir -A $sample --gzip --split-3 ~/rnaseq/$srr/$srr.sra
done

把这个slurm文件上传到服务器。并且点击右侧选项：DOS to UNIX，使之成为可执行。
通过sbatch rnaseq-sra2fq.slurm提交
就可以执行了。

image.png

执行完就生成了这些文件名都已经变为前面那些样本名称，也能看懂是什么意义啦。

心得：
1，不同版本的软件可能更新或者安全程度不一样，所以当一个软件如果运行报错，看看是不是要升级。
2，从GEO上下数据，最好先下载sra，这一步比较快一个文件几百M的，约2分钟就行，但是fastq-dump转换成fastq这一步就大约要大约十几分钟呢，两步合并操作容易出错，比如下载数据不全之类。之前day16时两步合并操作，但是长远看，还是分开的好。
3，prefetch 下载到slurm文件所在文件夹下，每个sra都建立了一个新的文件夹，就以SRR**为文件夹名。这一点和网上教程所说的不一样啊。别家教程都说会下载到NCBI这个文件夹中。。。在转为fastq之后，这些文件夹和里面的sra文件都可以删掉啦。
4，其实最初报了几个错什么certificate的问题，升级一下sra-tools
conda update sra-tools
又把prefetch和fastq-dump分成两个命令执行就成功了。（最初按照day16的方法用fastq-dump直接不下载sra，直接就转换。但是今天失败了，总报错）

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

day45 转录组数据下载

day45 转录组数据下载

1，数据获得-从文献来

2. 安装SRAToolkit

3. 下载sra转换为fastq格式

相关阅读更多精彩内容

友情链接更多精彩内容

day45 转录组 数据下载

1，数据获得-从文献来

2. 安装SRAToolkit

3. 下载sra转换为fastq格式

相关阅读更多精彩内容

友情链接更多精彩内容

day45 转录组数据下载