2019-12-09

学习内容(RNA-Seq的原理及流程)

知识理论

今天上课的内容是关于转录组RNA-Seq的学习,首先先从为什么要懂得测序,然后讲解了测序的发展历程,再

从测序的一代测序到三代测序的讲解,因为之前有了解基础内容,所以在听的时候感觉很通畅。成熟的流程,完善的数据处理方案。

一代测序:历史:第一代DNA测序技术(又称Sanger测序)在1975年,由Sanger等人开创,并在1977年完成第一个基因组序列(噬菌体X174),全长5375个碱基。研究人员经过30年的实践并对技术及测序策略的不断改进(如使用了不同策略的作图法、鸟枪法),2001年完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础。

原理:在4个DNA合成反应体系(含dNTP)中分别加入一定比例带有标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应

二代测序:历史:第一代DNA测序技术(又称Sanger测序)在1975年,由Sanger等人开创,并在1977年完成第一个基因组序列(噬菌体X174),全长5375个碱基。研究人员经过30年的实践并对技术及测序策略的不断改进(如使用了不同策略的作图法、鸟枪法),2001年完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础。

原理:在4个DNA合成反应体系(含dNTP)中分别加入一定比例带有标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应

三代测序:单分子测序
背景:测序技术经过第一代、第二代的发展,读长从一代测序的近1000bp,降到了二代测序的几百bp,通量和速度大幅提升,那么第三代测序的发展思路在于保持二代测序的速度和通量优势同时,弥补其读长较短的劣势。三代测序与前两代相比,最大的特点就是单分子测序,测序过程无需进行PCR扩增。

1、Oxford nanopore

纳米孔 + 电流检测技术

原理:该技术设计了一种特殊的纳米孔,孔内共价结合有分子接头,最终得到电信号而不是光信号或pH信号的测序技术。当DNA碱基通过纳米孔时,电荷将发生变化,因而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的电子设备检测到这些变化从而鉴定所通过的碱基。

优势劣势:

①读长很长,大约在几十kb,甚至100 kb;

②错误率目前相比较高,且是随机错误,而不是聚集在读取的两端;

③数据可实时读取;

④通量很高(30x人类基因组有望在一天内完成);

⑤起始DNA在测序过程中不被破坏;

⑥样品制备简单又便宜;

⑦可直接测序RNA。

转录调控的测序包括:转录组测序,表达谱测序,small RNA测序,Cric RNA测序,LncRNA测序,全长转录组测序,甲基化测序。

完善的项目流程:售前咨询,样品提取,文库构建,上机测序,信息分析,技术答疑

到测序平台再到测序实验设计讲解到位,之后进入实战的操作。

实战操作

环境安装

昨天在小郭老师的提前演示下,有了大概基础流程框架,在今天的讲课下,有了深刻的印象。

通过 lsb_release –a 命令查看系统:第一行版本信息,第二行发行者id,第三行该发行版的描述信息,第四行当前系统是发行版的具体版号;第五行是发行版代号。

查看CPU个数 cat /proc/cpuinfo | grep “physical id” | uniq | wc –l ; 查看CPU核数 cat /proc/cpuinfo | grep "cpu cores" | uniq | wc –l ; 查看CPU线程 cat /proc/cpuinfo | grep "processor" |wc -l

通过free –m查看内存

通过df –H查看剩余空间

Anaconda是一个自动化管理软件的工具 Pro:1.安装简介,2.各个软件依赖的环境一同打包且相互隔离 Con:文件较大,包含大量的包 Miniconda为其精简版a 需要什么软件再去下载 Bioconda 是生物软件库 可以利用Conda快速安装绝大多数生物学软件

wget -c https://repo.anaconda.com/miniconda/Miniconda2-latest-Linux-x86_64.sh • 安装Miniconda sh Miniconda2-latest-Linux-x86_64.sh • • 更新系统环境 source ~/.bashrc • 调用帮助文档• 创建名为rna的软件环境来安装转录组学分析的生物信息学软件 conda create -n rna python=2 创建小环境成功,并成功安装python2版本 每建立一个小环境,安装一个python=2的软件作为依赖 • 查看当前conda环境 conda info --envs • 每次运行前,激活创建的小环境rna conda activate rna

补充:

• 可以一次安装多个软件 conda install -y sra-tools fastqc trim-galore hisat2 subread multiqc samtools salmon conda install --help • 运行以下语句,不出现报错表示安装成功 prefetch –help; fastq-dump --help trim_galore –help; fastqc --help hisat2 –h; featureCounts; multiqc --help

数据下载

了解基因组原理:指生物体所有遗传物质的总和。这些遗传物质包括DNA或RNA(病毒RNA)

参考基因组:测序得到的是几百bp的短read, 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样子,那么任务将会及其艰巨。�还好人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行。

在之的数据下载中就是对基因和参考基因进行下载

参考基因组三大网站:1、Ensembl http://www.ensembl.org/index.html 2、 NCBI https://www.ncbi.nlm.nih.gov/guide 3、 UCSC http://genome.ucsc.edu

下载参考基因组:ftp用wget

http 用类似迅雷软件下载

参考基因组的注释文件:GFF3全称为general feature format,这种格式主要是用来注释基因组。 GTF全称为gene transfer format,主要是用来对基因进行注释


image.png
  1. type :属性的类型,如gene,repeat_region,exon,CDS等。

  2. start position :属性对应片段的起点。从1开始计数。

  3. end position :属性对应片段的终点。一般比起点的数值要大。

  4. score :得分,对于一些可以量化的属性,可以在此设置一个数值以表示程度的不同。如果为空,用点(.)代替。

  5. strand :“+”表示正链,“-”表示负链,“.”表示不需要指定正负链。

  6. phase :步进。对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。可以是0,1或2,表示到达下一个密码子需要跳过的碱基个数。对于其它属性,则用点(.)代替。

  7. attributes :属性一个包含众多属性的列表。常用的标签有:IDFeature的标识。该ID具有唯一性。NameFeature的展示名称。Name的值在可视化的时候得到展示。因此,Name可以根据自己展示的需要随意取值。AliasFeature的第2个Name。

数据下载的网站

Gencode数据库:ENCODE计划的衍生品,主要记录了基因组的功能注释(https://www.gencodegenes.org)

GSEA分析数据(MSigDB:对于human的基因,从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,一个基因集合中就是具有相近位置或类似功能的许多基因的,Broad Institute研究所将它们构建的基因集合保存在MSigDB数据库中。(官网:http://software.broadinstitute.org/gsea/index.jsp

到MSigDB官网 (需要邮箱注册) http://software.broadinstitute.org/gsea/downloads.jsp#msigdb 用迅雷类似软件一键全部下载。

其他相关数据网站:• ShortReadArchive(SRA)(http://www.ncbi.nlm.nih.gov/sra)是NCBI提供的数据存储服务,储存海量的公开的高通量测序数据。 • SRAHandbook(http://www.ncbi.nlm.nih.gov/books/NBK47528/)包含ShortRead Archive的详细说明。

SRA数据库

方法1.获取所需下载链接(https://www.ncbi.nlm.nih.gov/sra?term=SRP139147&cmd=DetailsSearch),通过文献得到SRA数据库里的名字,获取RunInfo

本地打开RunInfo文件找到下载路径

在Linux上下载Aspera Connect wget https://download.asperasoft.com/download/sw/connect/3.9.6/ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.tar.gz

注意下载的版本,不同版本可能命令不一样,所以要多查看帮助文档

安装Aspera Connect bash ibm-aspera-connect-3.9.6.173386-linux-g2.12-64.sh 添加并激活环境变量 echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc source ~/.bashrc 调用帮助文档 ascp --help

通过Aspera Connect下载

他的下载规律:/sra/sra-instant/reads/ByRun/sra/{SRR|ERR|DRR}/<first 6 characters of accession>/<accession>/<accession>.sra

ascp -QT -l 300m -P33001 i/home/ydzhou/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR697/ SRR6974318 /SRR6974318.sra ./

方法二:用ENA数据库

European Nucleotide Archive,属于EBI (European Bioinformatics Institute),功能同SRA数据库,最方便的是可以直接下载fastq (.gz)文件,可以省去了一部分工作量。

1.获取所需下载链接

2.通过文献得到ENA数据库里的名字

3.获取ftp下载链接

4.下载完成之后,打开txt文件

利用批量aspera去下载

先建好目录 mkdir -p ~/raw/PRJNA449418 mkdir ~/raw/PRJNA449427 cd ~/raw/PRJNA449418 写入txt cat > id.txt 将上面的文件全部粘贴进去并统一前缀统一改为 era-fasp@fasp.sra.ebi.ac.uk: cat id.txt |tr “;” “\n”| sed 's/ //:/'|sed 's/ftp/era-fasp@fasp/g’

把openssh拷贝过来到当前目录 cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ./

写bash脚本 cat> wget.sh #!bin/bash cat id.txt |while read id;do (ascp -QT -l 300m -P33001 -i /home/ydzhou/zzz/asperaweb_id_dsa.openssh $id ./);done /home/ydzhou/.aspera/connect/etc/home/ydzhou/.aspera/connect/etc/asperaweb_id_dsa.openssh查看指令是否正确 cat wget.sh

后台运行 nohup sh wget.sh &

fastq-dump是sratoolkit软件中的一个功能。sra是NCBI 推出的存储高通量数据的格式,而平常我们工作用得多是fastq格式,所以需要把sra转成fastq格式

直接下载ENA数据库可以跳过这一步!!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,635评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,628评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,971评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,986评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,006评论 6 394
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,784评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,475评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,364评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,860评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,008评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,152评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,829评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,490评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,035评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,428评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,127评论 2 356

推荐阅读更多精彩内容