biostar handbook(五)|序列从何而来和质量控制

测序仪

2017年一篇发表在Nature的综述"DNA sequencing at 40: past, present and future"介绍了DNA测序这40年的发展历程。1976年,Sanger和Coulson同时发表了2种方法用于对上百个DNA碱基进行解码,这就是第一代测序技术。到了2005年,罗氏的454平台揭开了高通量测序的序幕,后面则是SOLiD,454和Illumina三方对抗。然而10年过去了,市面上的二代测序只有illumina一家独大。在三代测序技术或者4代测序技术上,目前则是PacBio和MinION占领了市场的大部分份额。

测序技术发展

测序仪的工作原理

高通量测序之所以能够能够达到如此高的通量的原因就是他把原来几十M,几百M,甚至几个G的基因组通过物理或化学的方式打算成几百bp的短序列,然后同时测序。

因为测序过程是边合成边测序(SBS),所以在建库的时候,短序列两段会加一些固定的碱基用于桥式PCR扩增,这些固定的碱基就是adapter(接头)。一般而言,还可以在接头加一些tag(index),用于标识这个read来自于哪个物种。目前的单细胞测序为了省钱,譬如10X genomic技术,都是在一个pool里面加多种接头。

以二代测序的无冕之王illumina测序仪建库为例,假设有如下的DNA片段

AAAATTTTGGGGCCCC
TTTTAAAACCCCGGGG

在建库准备时,单一设计的DNA接头长度通常超过30个碱基,会加在每条序列的两端

XXXXAAAATTTTGGGGCCCCYYYY
XXXXGGGGCCCCAAAATTTTYYYY

对于给定的片段,每条链都会被测序。测序仪通常会识别起始位点的XXXX,但不会被记录,测序方向:

---->
AAAAT
AAAATTTTGGGGCCCC
TTTTAAAACCCCGGGG
           CGGGG
           <----

由于片段长度不一,所以会出现read-through的情况,也就是读到了接头的序列。

由于测序的protocol和instrumentation不同,测序方向也可能不同,这会导致程序出现错误。因此请确保你的双端数据的方向是----> <----

在测序过程中,机器会对每次读取的结果赋予一个值,用于表明它有多大把握结果是对的。从理论上都是前面质量好,后面质量差。并且在某些GC比例高的区域,测序质量会大幅度降低。

目前,Illumina的错误率是1/1000,PacBio是1/10,而MinION是1/5。随着技术的更新,目前它们的错误率应该是得到很大的降低了,但是顺序不会变,于是三代和四代的测序结果一般都需要二代进行纠错。

测序仪详解

2011年有一篇文章Travis Glenn’s Field Guide to Next Generation DNA Sequencer对不同测序仪进行了测评。现在6年过去了,这篇文章的内容也得到了相应的更新,见2016: Updates to the NGS Field Guide

Ilumina

待补充

PacBio

待补充

Minion

待补充

样本准备

待补充

测序数据覆盖度

什么叫做测序数据的覆盖度(coverage),这是一个很好的问题。在书中,覆盖率简单定义为:

c = 测序的碱基数 / 基因组总大小

一开始我觉得这个公式其实是计算测序的平均深度。但是后面继续谈到覆盖度不是意味着所有基因组都被覆盖了,而是覆盖率越高,基因组未被检测到的基因越少。根据经验公式,碱基丢失率:P = exp(-C)。假设测序深度10x,基因组长度为20k,那么丢失exp(-10)*20000,差不多是一个碱基,如果是人类基因组会是136199个碱基。

当然理论覆盖度并不代表现实情况,由于基因组的复杂性,DNA可能也不是真的随机打断,甚至实验protocol还有一定的偏向性。

  • 尽可能增加测序深度
  • 尽管有一些基因组部分很难被测序,但是我们其实清楚这些区域难以测序的原因
  • 基因组的高度重复区域需要更长的读长才能被发现
  • 基因组不同区域可能会产生相同的read,你需要更长的读长。

科学家喜欢用“可进入(accessible)", "可比对(mappable)", "有效(effective)"的基因组来指明基因组哪些区域很容易被研究。

数据质量和质量控制

一般而言,拿到数据后最重要的一步就是看看数据的质量如何。之前已经提及过FASTQ的基本格式,这里就不具体展开,并且我们其实一般都是使用Babraham Institute开发的FastQC对质量进行可视化展示。

目前来看,FastQC基本上已经是数据质量展示的通用工具了。它使用Java进行开发,是跨平台工具,效率高,简单易用,出图也好看。但是记住一点,FastQC不做质量控制,它只是展示数据的质量而已。

使用FastQC展示数据质量

FastQC的工作原理是通过对总体数据的抽样来评估总体效果,这就是它快(fast)的愿意,毕竟其他一些质量展示软件是老老实实把所有数据都用于作图。

首先你需要准备数据和软件:

conda -c bioconda install fastqc
wget http://data.biostarhandbook.com/data/sequencing-platform-data.tar.gz
tar xzvf sequencing-platform-data.tar.gz

然后你需要稍微了解以下fastqc的参数:

fastqc seqfile1 seqfile2 .. seqfileN
常用参数:
-o: 输出路径
--extract: 输出文件是否需要自动解压 默认是--noextract
-t: 线程, 和电脑配置有关,每个线程需要250MB的内存
-c: 测序中可能会有污染, 比如说混入其他物种
-a: 接头
-q: 安静模式

最后使用FastQC进行数据质量可视化展示

fastqc *.fq

结果会得到每个FASTQ文件对应的zip压缩文件和HTML文件。数据汇总主要会用ZIP压缩文件,而对数据质量的直观感受则是看HTML文件,直接用网页打开。绿色表示通过,红色表示未通过,黄色表示不太好

image

具体含义可以看这里: http://jingyan.baidu.com/article/49711c6149e27dfa441b7c34.html

一些注意事项:

  • 没必要太过在意“stoplinght",但是如果全部红灯,那么数据就要小心了。
  • 序列重复分为两类:天然重复(片段相同),人为重复(PCR扩增,检测)

检测重复有两种方法:序列相同,比对相同。读段重复最大的问题是在检测变异上,如果一个变异点重复两次,会产生与实际不符的效果。SNP calling和基因组变异检测需要移除重复,其他就不需要。

如果同一批测序有多个数据,比如说15个(5个样本,3个重复),在对每个数据做一个fastqc后,还可以用multiqc进行数据聚合展示

利用conda安装软件尤其简单,

conda install multiqc
multiqc --help

使用也很方便,

# 先获取QC结果
 ls *gz | while read id; do fastqc -t 4 $id; done
# multiqc
multiqc *fastqc.zip --pdf

会有一个html文件用来了解总体情况

image

测序质量的质量控制

质控时机:比对前的原始数据和比对后的数据过滤
流程:

  1. 数据可视化评估
  2. 质量不错就停止QC
  3. 否则对数据进行修改,返回步骤1

QC工具的可信度

  1. 首先QC工具本身质量就不是很好,QC工具之间可能也不一致,不同工具使用相同的参数可能也会有不同的结果。
  2. QC的确可能会引入错误,所以如果尽量避免修改数据

QC工具集

比较好的是Trimmomatic, BBDuk ,flexbar and cutadapt

There also exist libraries via R (Bioconductor) for QC: PIQA, ShortRead

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容