chapter1.高通量序列实验简介:设计与生物信息学分析

2021/4/16

Springer : Methods in Molecular Biology系列书籍
《Deep Sequencing Data Analysis》2013

chapter 1 :
An Introduction to High-Throughput Sequencing Experiments: Design and
Bioinformatics Analysis


1、设计高通量测序实验的步骤
2、介绍了最广泛使用的应用,并描述了基本的测序概念。
3、可用于生物信息学分析的各种软件程序,以理解测序数据。


一、高通量测序中的基本概念

1、Insert:用于测序的DNA片段
2、ReadInsert被测序到的部分
3、Single Read(SR):一种只从Insert序列一端测序的测序程序
4、Pair Read(PR):一种从Insert序列两端测序的测序程序
5、Flowcell:连接DNA芯片并进行测序的一种小玻璃芯片。Flowcell被探针覆盖,允许与DNA片段连接的接头杂交。
6、LaneFlowcell由8个物理分离的通道组成,称为Lane。在所有Lane上并行进行测序。
7、Multiplexing/Demultiplexing:在同一Lane上对几个样本进行测序称为多路复用Multiplexing,在一条Lane上测序的Reads的分离称为分路复用Demultiplexing,通过一个识别每个Reads*的索引将其与已知样本的索引进行比较。
8、Pipeline:一系列的计算过程


二、高通量测序应用程序(部分)

(一)reading
  1、Resequencing:在一个给定的样本中找到相对于参考基因组的变体
    实验细节:从相关细胞中提取DNA,进行由DNA碎片化和测序组成的样品制备
    基本分析总结:将序列片段映射到参考基因组,并通过总结片段与其基因组位点的差
           异来识别相对于参考基因组的变异对应的“地图”

  2、Target-enriched sequencing:靶点富集测序是一种特定的Resequencing形式,只
    关注特定的基因组基因座。
    实验细节:在从细胞中提取DNA并进行样品制备后,进行一个富集过程来捕获相关的
         位点,靶富集可以使用“定制的”靶富集探针在基因组的特定区域进行,或
         使用可用的试剂盒,如exome-enrichment kits。
    基本分析总结:与Resequencing相同

  3、De novo assembly:识别一个基因组序列,而无需任何额外的参考
    实验细节:与Resequencing相同
    基本分析总结:组装过程依赖于DNA片段的重叠。这些重叠被合并成一致序列,称为
           contigsscaffolds

(二)counting
  1、ChIP-Seq/RIP-Seq:找到RNA或DNA结合蛋白的结合位置
    实验细节:(1)首先,进行了ChIP/RIP实验:蛋白质与DNA/RNA结合,并与之交
            联。然后DNA/RNA被分裂。
         (2)蛋白质pull down经历免疫沉淀过程,交联被逆转
         (3)对富集于蛋白结合位点中的DNA/RNA片段进行测序
    基本分析总结:被序列排列的片段被映射到基因组中。基因组中丰富的位置是通过检
           测基因组的映射片段的“peaks(峰)”发现的,这些峰值应该明显高于在
           周围的位点中已映射的片段,并且与对照样本相比要高得多----通常
           是ChIP实验的输入DNA或其他由非特异性抗体进行的免疫沉淀样
           本。

  2、RNA-Seq:检测和比较基因表达水平
    实验细节:从细胞中提取总RNA,在样品制备过程中,mRNA被pull down并破碎。
         然后,mRNA片段被逆转录成cDNA,cDNA片段测序。
    基本分析总结:cDNA片段被映射到参考基因组中。映射到每个基因的片段被计数和
           标准化,以便比较不同的基因和不同的样本。在一个RNA-Seq实验
           中,通过检测映射到一个未注释区域的基因组上的片段束,可以找到
           未标记的基因和转录本。

(三)reading/counting
  microRNA-Seq:检测和计数microRNAs
    实验细节:从细胞中提取总RNA,通过识别大多数已知的microRNA分子共同的自然
         结构来分离microRNA,然后对microRNA片段进行逆转录和测序。
    基本分析总结:被测序的片段被映射到基因组中,然后,微RNA可以被检测和计数。


三、序列覆盖范围 Sequence Coverage

1、在reading中,覆盖范围对应于平均覆盖基因组中每个碱基reads数量。

average coverage

一般来说,30X覆盖率被认为是识别基因组变异的最小值,而de novo通常需要一个更高的覆盖范围。

2、在counting中,覆盖的概念并不简单,因为the number of reads along the genome is not expected to be uniform.
  可帮助评估是否有足够的reads序列的分析是“*saturation report*(饱和度报告)”,使用所有的reads确定表达水平,表达水平与取一部分reads重新计算的表达水平比较。

saturation report

    高度表达的基因甚至饱和了10%的读数,即使有完整的数据集,低表达的基因仍然不饱和

四、测序配方: Single-Read vs. Paired-End, Insert Size, and Read Length

1、基因组的重复性
  要唯一地对重复区域的read映射进行评分,它必须 比重复区域边界相邻的非重复序列更长。更长的reads或PE reads允许“拯救”非唯一端,也映射到基因组中的非唯一区域。

如果红色端序列为Single-Read而不是Paired-End,红色端就不会被唯一映射

2、差异剪接变异
  同一基因表达的转录本不同时:


Single-Read映射到基因,不能区分转录本。Paired-End提供了一个更好的机会来识别剪接变体

3、测序样本与参考基因组的遗传距离
  如果被测序的样本与参考基因组有遗传距离,可能需要更长的reads来确定基因组中每个read的来源。

4、寻找结构变异
  基因组的结构变化,如长的插入或缺失,倒位和易位可以通过Paired-End信息找到。


a:与参考基因组相比,序列包含缺失。映射到参考基因组的Paired-End reads之间的距离将比预期的insert size要大。b:IGV浏览器中基因组缺失示例

5、De Novo 装配
  挑战:测序错误、低复杂度区域和重复区域等
  更长的PE reads会导致更好的装配,使用一些具有不同insert length的序列库可以改进组装过程。


五、测序的样本数

1、 Resequencing:有遗传距离。。。
2、RNA-Seq:使用来自不同重复的数据,并将其合并为一个具有更高统计显著性的值。
3、ChIP-Seq:+控制样本


六、分析管道
生物信息学管道的四大主要应用领域

1、Raw Data 处理
  此步骤的可用软件:Illumina’s CASAVA software,Illumina运行会生成“base-calling”文件(*.bcl),它们只有在转换为通用fastq格式时才会非常有用,在此文件转换过程中,还执行解复用过程,即从同一lane上排序的不同样本分离读取。

2、质量控制和read操作
  此步骤的可用软件:CASAVA和FastQC
  测序运行完成后,在开始分析之前,应检查运行的质量是否以下参数,这些参数可能说明样品和运行的质量。

3、为De Novo Assembly组装 Contigs 和 Scaffolds
  此步骤的可用软件:SOAPdenovo,ABySS,Velvet,ALL-PATHS


对齐reads以查找重叠部分

使用PE信息将contig连接到scaffold

关闭scaffold内的gap

4、mapping
  此步骤的可用软件:BWA ,Bowtie,TopHat

5、 Variant Calling and Filtering
  此步骤的可用软件: SAMtools,GATK,MAQ
  帮助检测变异的两个基本参数如下:
  (1)Coverage at the loci
  (2)被测序的等位基因的频率

6、Assembling Transcripts

7、 Gene Expression Analysis
  此步骤的可用软件:Cufflinks,Myrna
  一种常见的归一化方法FPKM,计算如下:


FPKM

8、 Peak Detection
  此步骤的可用软件:MACS,SICER


评估转录本丰度
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容