chapter1.高通量序列实验简介：设计与生物信息学分析

2021/4/16

Springer : Methods in Molecular Biology系列书籍
《Deep Sequencing Data Analysis》2013

chapter 1 ：
An Introduction to High-Throughput Sequencing Experiments: Design and
Bioinformatics Analysis

1、设计高通量测序实验的步骤
2、介绍了最广泛使用的应用，并描述了基本的测序概念。
3、可用于生物信息学分析的各种软件程序，以理解测序数据。

一、高通量测序中的基本概念

1、Insert：用于测序的DNA片段
2、Read：Insert被测序到的部分
3、Single Read（SR）：一种只从Insert序列一端测序的测序程序
4、Pair Read（PR）：一种从Insert序列两端测序的测序程序
5、Flowcell：连接DNA芯片并进行测序的一种小玻璃芯片。Flowcell被探针覆盖，允许与DNA片段连接的接头杂交。
6、Lane：Flowcell由8个物理分离的通道组成，称为Lane。在所有Lane上并行进行测序。
7、Multiplexing/Demultiplexing：在同一Lane上对几个样本进行测序称为多路复用Multiplexing，在一条Lane上测序的Reads的分离称为分路复用Demultiplexing，通过一个识别每个Reads*的索引将其与已知样本的索引进行比较。
8、Pipeline：一系列的计算过程

二、高通量测序应用程序（部分）

（一）reading
1、Resequencing：在一个给定的样本中找到相对于参考基因组的变体
实验细节：从相关细胞中提取DNA，进行由DNA碎片化和测序组成的样品制备
基本分析总结：将序列片段映射到参考基因组，并通过总结片段与其基因组位点的差
异来识别相对于参考基因组的变异对应的“地图”

2、Target-enriched sequencing：靶点富集测序是一种特定的Resequencing形式，只
关注特定的基因组基因座。
实验细节：在从细胞中提取DNA并进行样品制备后，进行一个富集过程来捕获相关的
位点，靶富集可以使用“定制的”靶富集探针在基因组的特定区域进行，或
使用可用的试剂盒，如exome-enrichment kits。
基本分析总结：与Resequencing相同

3、De novo assembly：识别一个基因组序列，而无需任何额外的参考
实验细节：与Resequencing相同
基本分析总结：组装过程依赖于DNA片段的重叠。这些重叠被合并成一致序列，称为
contigs和 scaffolds。

（二）counting
1、ChIP-Seq/RIP-Seq：找到RNA或DNA结合蛋白的结合位置
实验细节：（1）首先，进行了ChIP/RIP实验：蛋白质与DNA/RNA结合，并与之交
联。然后DNA/RNA被分裂。
（2）蛋白质pull down经历免疫沉淀过程，交联被逆转
（3）对富集于蛋白结合位点中的DNA/RNA片段进行测序
基本分析总结：被序列排列的片段被映射到基因组中。基因组中丰富的位置是通过检
测基因组的映射片段的“peaks(峰)”发现的,这些峰值应该明显高于在
周围的位点中已映射的片段，并且与对照样本相比要高得多----通常
是ChIP实验的输入DNA或其他由非特异性抗体进行的免疫沉淀样
本。

2、RNA-Seq：检测和比较基因表达水平
实验细节：从细胞中提取总RNA，在样品制备过程中，mRNA被pull down并破碎。
然后，mRNA片段被逆转录成cDNA，cDNA片段测序。
基本分析总结：cDNA片段被映射到参考基因组中。映射到每个基因的片段被计数和
标准化，以便比较不同的基因和不同的样本。在一个RNA-Seq实验
中，通过检测映射到一个未注释区域的基因组上的片段束，可以找到
未标记的基因和转录本。

（三）reading/counting
microRNA-Seq：检测和计数microRNAs
实验细节：从细胞中提取总RNA，通过识别大多数已知的microRNA分子共同的自然
结构来分离microRNA，然后对microRNA片段进行逆转录和测序。
基本分析总结：被测序的片段被映射到基因组中，然后，微RNA可以被检测和计数。

三、序列覆盖范围 Sequence Coverage

1、在reading中，覆盖范围对应于平均覆盖基因组中每个碱基的reads数量。

average coverage

一般来说，30X覆盖率被认为是识别基因组变异的最小值，而de novo通常需要一个更高的覆盖范围。

2、在counting中，覆盖的概念并不简单，因为the number of reads along the genome is not expected to be uniform.
可帮助评估是否有足够的reads序列的分析是“*saturation report*(饱和度报告)”，使用所有的reads确定表达水平，表达水平与取一部分reads重新计算的表达水平比较。

saturation report

高度表达的基因甚至饱和了10%的读数，即使有完整的数据集，低表达的基因仍然不饱和

四、测序配方: Single-Read vs. Paired-End, Insert Size, and Read Length

1、基因组的重复性
要唯一地对重复区域的read映射进行评分，它必须比重复区域或边界相邻的非重复序列更长。更长的reads或PE reads允许“拯救”非唯一端，也映射到基因组中的非唯一区域。

如果红色端序列为Single-Read而不是Paired-End，红色端就不会被唯一映射

2、差异剪接变异
同一基因表达的转录本不同时：

Single-Read映射到基因，不能区分转录本。Paired-End提供了一个更好的机会来识别剪接变体

3、测序样本与参考基因组的遗传距离
如果被测序的样本与参考基因组有遗传距离，可能需要更长的reads来确定基因组中每个read的来源。

4、寻找结构变异
基因组的结构变化，如长的插入或缺失，倒位和易位可以通过Paired-End信息找到。

a:与参考基因组相比，序列包含缺失。映射到参考基因组的Paired-End reads之间的距离将比预期的insert size要大。b:IGV浏览器中基因组缺失示例

5、De Novo 装配
挑战：测序错误、低复杂度区域和重复区域等
更长的PE reads会导致更好的装配，使用一些具有不同insert length的序列库可以改进组装过程。

五、测序的样本数

1、 Resequencing：有遗传距离。。。
2、RNA-Seq：使用来自不同重复的数据，并将其合并为一个具有更高统计显著性的值。
3、ChIP-Seq：+控制样本

六、分析管道

生物信息学管道的四大主要应用领域

1、Raw Data 处理
此步骤的可用软件：Illumina’s CASAVA software，Illumina运行会生成“base-calling”文件(*.bcl)，它们只有在转换为通用fastq格式时才会非常有用,在此文件转换过程中，还执行解复用过程，即从同一lane上排序的不同样本分离读取。

2、质量控制和read操作
此步骤的可用软件：CASAVA和FastQC
测序运行完成后，在开始分析之前，应检查运行的质量是否以下参数，这些参数可能说明样品和运行的质量。

3、为De Novo Assembly组装 Contigs 和 Scaffolds
此步骤的可用软件：SOAPdenovo，ABySS，Velvet，ALL-PATHS

对齐reads以查找重叠部分

使用PE信息将contig连接到scaffold

关闭scaffold内的gap

4、mapping
此步骤的可用软件：BWA ，Bowtie，TopHat

5、 Variant Calling and Filtering
此步骤的可用软件： SAMtools，GATK，MAQ
帮助检测变异的两个基本参数如下：
（1）Coverage at the loci
（2）被测序的等位基因的频率

6、Assembling Transcripts

7、 Gene Expression Analysis
此步骤的可用软件：Cufflinks，Myrna
一种常见的归一化方法FPKM，计算如下：

FPKM

8、 Peak Detection
此步骤的可用软件：MACS，SICER

评估转录本丰度

最后编辑于：2021.04.16 12:22:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,686评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,668评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 158,160评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,736评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,847评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,043评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,129评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,872评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,318评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,645评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,777评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,470评论 4赞 333
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,126评论 3赞 317
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,861评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,095评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,589评论 2赞 362
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,687评论 2赞 351