small RNA学习(一):GEO数据下载

一般在转录组或者基因表达相关的文献中,末尾都会附上Accession Numbers,可以用这个编号在GEO(Gene Expression Omnibus)数据库上下载该研究用到的原始数据或是一些结果文件。我选了一篇拟南芥的文章来学习,主要原因是拟南芥的基因组小,且研究较成熟,参考数据比较全。

百度搜索GEO

输入编号后查询

会自动搜索出对应的文献标题,点进去看页面下方

点击SRA编号

点击Send results to Run selector

样本编号和Run编号是一一对应的

接下来用ascp下载数据,会比prefetch快不少,不过在下载的同时进行其他命令会卡顿。
关于下载方法,这一篇写得很好:SRA、SAM以及Fastq文件高速下载方法

for i in `seq 59 70`
do
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l 1000m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR126/SRR12668${i}/SRR12668${i}.sra ./
done

解压
for i in `seq 59 70`
do
fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si-$ri' SRR12668${i}.sra -O /ifs1/Grp3/huangsiyuan/learn_rnaseq/srna_project/data/
done
$ ls *.sra
SRR1266859.sra  SRR1266861.sra  SRR1266863.sra  SRR1266865.sra  SRR1266867.sra  SRR1266869.sra
SRR1266860.sra  SRR1266862.sra  SRR1266864.sra  SRR1266866.sra  SRR1266868.sra  SRR1266870.sra

$ ls SRR*.fastq.gz
SRR1266859.fastq.gz  SRR1266861.fastq.gz  SRR1266863.fastq.gz  SRR1266865.fastq.gz  SRR1266867.fastq.gz  SRR1266869.fastq.gz
SRR1266860.fastq.gz  SRR1266862.fastq.gz  SRR1266864.fastq.gz  SRR1266866.fastq.gz  SRR1266868.fastq.gz  SRR1266870.fastq.gz
可以得知,是单端测序
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容