学习内容(RNA-Seq的原理及流程)
知识理论
今天上课的内容是关于转录组RNA-Seq的学习,首先先从为什么要懂得测序,然后讲解了测序的发展历程,再
从测序的一代测序到三代测序的讲解,因为之前有了解基础内容,所以在听的时候感觉很通畅。成熟的流程,完善的数据处理方案。
一代测序:历史:第一代DNA测序技术(又称Sanger测序)在1975年,由Sanger等人开创,并在1977年完成第一个基因组序列(噬菌体X174),全长5375个碱基。研究人员经过30年的实践并对技术及测序策略的不断改进(如使用了不同策略的作图法、鸟枪法),2001年完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础。
原理:在4个DNA合成反应体系(含dNTP)中分别加入一定比例带有标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应
二代测序:历史:第一代DNA测序技术(又称Sanger测序)在1975年,由Sanger等人开创,并在1977年完成第一个基因组序列(噬菌体X174),全长5375个碱基。研究人员经过30年的实践并对技术及测序策略的不断改进(如使用了不同策略的作图法、鸟枪法),2001年完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础。
原理:在4个DNA合成反应体系(含dNTP)中分别加入一定比例带有标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应
三代测序:单分子测序
背景:测序技术经过第一代、第二代的发展,读长从一代测序的近1000bp,降到了二代测序的几百bp,通量和速度大幅提升,那么第三代测序的发展思路在于保持二代测序的速度和通量优势同时,弥补其读长较短的劣势。三代测序与前两代相比,最大的特点就是单分子测序,测序过程无需进行PCR扩增。
1、Oxford nanopore
纳米孔 + 电流检测技术
原理:该技术设计了一种特殊的纳米孔,孔内共价结合有分子接头,最终得到电信号而不是光信号或pH信号的测序技术。当DNA碱基通过纳米孔时,电荷将发生变化,因而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的电子设备检测到这些变化从而鉴定所通过的碱基。
优势劣势:
①读长很长,大约在几十kb,甚至100 kb;
②错误率目前相比较高,且是随机错误,而不是聚集在读取的两端;
③数据可实时读取;
④通量很高(30x人类基因组有望在一天内完成);
⑤起始DNA在测序过程中不被破坏;
⑥样品制备简单又便宜;
⑦可直接测序RNA。
转录调控的测序包括:转录组测序,表达谱测序,small RNA测序,Cric RNA测序,LncRNA测序,全长转录组测序,甲基化测序。
完善的项目流程:售前咨询,样品提取,文库构建,上机测序,信息分析,技术答疑
到测序平台再到测序实验设计讲解到位,之后进入实战的操作。
实战操作
环境安装
昨天在小郭老师的提前演示下,有了大概基础流程框架,在今天的讲课下,有了深刻的印象。
通过 lsb_release –a 命令查看系统:第一行版本信息,第二行发行者id,第三行该发行版的描述信息,第四行当前系统是发行版的具体版号;第五行是发行版代号。
查看CPU个数 cat /proc/cpuinfo | grep “physical id” | uniq | wc –l ; 查看CPU核数 cat /proc/cpuinfo | grep "cpu cores" | uniq | wc –l ; 查看CPU线程 cat /proc/cpuinfo | grep "processor" |wc -l
通过free –m查看内存
通过df –H查看剩余空间
Anaconda是一个自动化管理软件的工具 Pro:1.安装简介,2.各个软件依赖的环境一同打包且相互隔离 Con:文件较大,包含大量的包 Miniconda为其精简版a 需要什么软件再去下载 Bioconda 是生物软件库 可以利用Conda快速安装绝大多数生物学软件
wget -c https://repo.anaconda.com/miniconda/Miniconda2-latest-Linux-x86_64.sh • 安装Miniconda sh Miniconda2-latest-Linux-x86_64.sh • • 更新系统环境 source ~/.bashrc • 调用帮助文档• 创建名为rna的软件环境来安装转录组学分析的生物信息学软件 conda create -n rna python=2 创建小环境成功,并成功安装python2版本 每建立一个小环境,安装一个python=2的软件作为依赖 • 查看当前conda环境 conda info --envs • 每次运行前,激活创建的小环境rna conda activate rna
补充:
• 可以一次安装多个软件 conda install -y sra-tools fastqc trim-galore hisat2 subread multiqc samtools salmon conda install --help • 运行以下语句,不出现报错表示安装成功 prefetch –help; fastq-dump --help trim_galore –help; fastqc --help hisat2 –h; featureCounts; multiqc --help
数据下载
了解基因组原理:指生物体所有遗传物质的总和。这些遗传物质包括DNA或RNA(病毒RNA)
参考基因组:测序得到的是几百bp的短read, 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样子,那么任务将会及其艰巨。�还好人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行。
在之的数据下载中就是对基因和参考基因进行下载
参考基因组三大网站:1、Ensembl http://www.ensembl.org/index.html 2、 NCBI https://www.ncbi.nlm.nih.gov/guide 3、 UCSC http://genome.ucsc.edu
下载参考基因组:ftp用wget
http 用类似迅雷软件下载
参考基因组的注释文件:GFF3全称为general feature format,这种格式主要是用来注释基因组。 GTF全称为gene transfer format,主要是用来对基因进行注释
type :属性的类型,如gene,repeat_region,exon,CDS等。
start position :属性对应片段的起点。从1开始计数。
end position :属性对应片段的终点。一般比起点的数值要大。
score :得分,对于一些可以量化的属性,可以在此设置一个数值以表示程度的不同。如果为空,用点(.)代替。
strand :“+”表示正链,“-”表示负链,“.”表示不需要指定正负链。
phase :步进。对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。可以是0,1或2,表示到达下一个密码子需要跳过的碱基个数。对于其它属性,则用点(.)代替。
attributes :属性一个包含众多属性的列表。常用的标签有:IDFeature的标识。该ID具有唯一性。NameFeature的展示名称。Name的值在可视化的时候得到展示。因此,Name可以根据自己展示的需要随意取值。AliasFeature的第2个Name。
数据下载的网站
Gencode数据库:ENCODE计划的衍生品,主要记录了基因组的功能注释(https://www.gencodegenes.org)
GSEA分析数据(MSigDB:对于human的基因,从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,一个基因集合中就是具有相近位置或类似功能的许多基因的,Broad Institute研究所将它们构建的基因集合保存在MSigDB数据库中。(官网:http://software.broadinstitute.org/gsea/index.jsp)
到MSigDB官网 (需要邮箱注册) http://software.broadinstitute.org/gsea/downloads.jsp#msigdb 用迅雷类似软件一键全部下载。
其他相关数据网站:• ShortReadArchive(SRA)(http://www.ncbi.nlm.nih.gov/sra)是NCBI提供的数据存储服务,储存海量的公开的高通量测序数据。 • SRAHandbook(http://www.ncbi.nlm.nih.gov/books/NBK47528/)包含ShortRead Archive的详细说明。
SRA数据库
方法1.获取所需下载链接(https://www.ncbi.nlm.nih.gov/sra?term=SRP139147&cmd=DetailsSearch),通过文献得到SRA数据库里的名字,获取RunInfo
本地打开RunInfo文件找到下载路径
在Linux上下载Aspera Connect wget https://download.asperasoft.com/download/sw/connect/3.9.6/ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz
注意下载的版本,不同版本可能命令不一样,所以要多查看帮助文档
安装Aspera Connect bash ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.sh 添加并激活环境变量 echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc source ~/.bashrc 调用帮助文档 ascp --help
通过Aspera Connect下载
他的下载规律:/sra/sra-instant/reads/ByRun/sra/{SRR|ERR|DRR}/<first 6 characters of accession>/<accession>/<accession>.sra
ascp -QT -l 300m -P33001 i/home/ydzhou/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR697/ SRR6974318 /SRR6974318.sra ./
方法二:用ENA数据库
European Nucleotide Archive,属于EBI (European Bioinformatics Institute),功能同SRA数据库,最方便的是可以直接下载fastq (.gz)文件,可以省去了一部分工作量。
1.获取所需下载链接
2.通过文献得到ENA数据库里的名字
3.获取ftp下载链接
4.下载完成之后,打开txt文件
利用批量aspera去下载
先建好目录 mkdir -p ~/raw/PRJNA449418 mkdir ~/raw/PRJNA449427 cd ~/raw/PRJNA449418 写入txt cat > id.txt 将上面的文件全部粘贴进去并统一前缀统一改为 era-fasp@fasp.sra.ebi.ac.uk: cat id.txt |tr “;” “\n”| sed 's/ //:/'|sed 's/ftp/era-fasp@fasp/g’
把openssh拷贝过来到当前目录 cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ./
写bash脚本 cat> wget.sh #!bin/bash cat id.txt |while read id;do (ascp -QT -l 300m -P33001 -i /home/ydzhou/zzz/asperaweb_id_dsa.openssh $id ./);done /home/ydzhou/.aspera/connect/etc/home/ydzhou/.aspera/connect/etc/asperaweb_id_dsa.openssh查看指令是否正确 cat wget.sh
后台运行 nohup sh wget.sh &
fastq-dump是sratoolkit软件中的一个功能。sra是NCBI 推出的存储高通量数据的格式,而平常我们工作用得多是fastq格式,所以需要把sra转成fastq格式