教程:http://www.bio-info-trainee.com/2218.html
B站 jimmy大神的视频
数据可以从别人的文献里来,也可以是自己测回来的fastq格式的。
1,数据获得-从文献来
https://www.ncbi.nlm.nih.gov/geo/
根据文献里的GEO accession,输入上面网站,比如GSE50177,搜索到这组数据。
在sample这里可以看到六个数据,前两个是ChIP-seq的,后四个是RNAseq的。
点击下方SRA的编号: SRP029245。
从send to下拉菜单中选择file,RunInfo。之后下载一个文件名为:SraRunInfo.csv。用excel打开,可以找其中有用的两列Run和SampleName,不过这个samplename并不是我们需要的啊。
所以回到刚才界面,吧GSM...对应的文字名称拷贝到第三列——这个才是咱们理解的样本名嘛。然后把这个文件的title删掉,其他没用的列都删掉,只留两列有用的,保存成为SraRunInfo.txt,一定要是txt格式才行。
最后把SraRunInfo.txt文件上传到服务器 ~/rnaseq目录之下。
2. 安装SRAToolkit
conda activate py3.7
conda install sra-tools
fastq-dump -h
#成功出现帮助文档
3. 下载sra转换为fastq格式
建立一个txt文本,改名为rnaseq-sra2fq.slurm :输入下面代码
#!/bin/bash
#SBATCH --output=rnaseq-sra2fq.out
#SBATCH --error=rnaseq-sra2fq.err
#SBATCH --mail-type=end
#SBATCH --mail-user=zmeraner@126.com
module add Anaconda3/2020.02
source activate
conda activate py3.7 #激活3.7环境
#sra2fq
mkdir ~/rnaseq/rawdata
analysis_dir=~/rnaseq/rawdata
cat ~/rnaseq/SraRunInfo.txt | while read id
do
arr=($id)
srr=${arr[0]}
sample=${arr[1]}
prefetch $srr
fastq-dump -O $analysis_dir -A $sample --gzip --split-3 ~/rnaseq/$srr/$srr.sra
done
把这个slurm文件上传到服务器。并且点击右侧选项:DOS to UNIX,使之成为可执行。
通过sbatch rnaseq-sra2fq.slurm
提交
就可以执行了。
执行完就生成了这些文件名都已经变为前面那些样本名称,也能看懂是什么意义啦。
心得:
1,不同版本的软件可能更新或者安全程度不一样,所以当一个软件如果运行报错,看看是不是要升级。
2,从GEO上下数据,最好先下载sra,这一步比较快一个文件几百M的,约2分钟就行,但是fastq-dump转换成fastq这一步就大约要大约十几分钟呢,两步合并操作容易出错,比如下载数据不全之类。之前day16时两步合并操作,但是长远看,还是分开的好。
3,prefetch 下载到slurm文件所在文件夹下,每个sra都建立了一个新的文件夹,就以SRR**为文件夹名。这一点和网上教程所说的不一样啊。别家教程都说会下载到NCBI这个文件夹中。。。在转为fastq之后,这些文件夹和里面的sra文件都可以删掉啦。
4,其实最初报了几个错什么certificate的问题,升级一下sra-tools
conda update sra-tools
又把prefetch和fastq-dump分成两个命令执行就成功了。(最初按照day16的方法用fastq-dump直接不下载sra,直接就转换。但是今天失败了,总报错)