由于毕业设计原因,从头学起RNA-seq整个流程。防止遗忘,写一个学习笔记以供日后查阅。本文涉及知识和方法均搜集自互联网,并结合实际操作进行调整。
RNA-seq即转录组测序技术,就是把mRNA,smallRNA,and NONcoding RNA等或者其中一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。流程大致如下:
使用到的软件:sratoolkit工具集、
一、数据准备
1.样品序列(samples)
NCBI提供了SRA数据库存储二代测序数据。
http://www.ncbi.nlm.nih.gov/sra
下载sra文件:
prefetch SRR7663112
转换成fastq格式
fastq-dump --gzip --split-3 -O ~/RNA-seq/samples -A SRR7663112.sra
其中,
--gzip参数指定用gizp压缩fastq文件,选用该参数可大幅缩小序列文件体积
--split-3参数指定为双端测序文件
-O参数指定输出目录,-A参数指定输入文件
2.参考基因组序列(genome)
3.注释文件(gene)
(未完待续)