生信学习第一篇-Fastqc分析简略版

二代测序数据评估软件: FastQC

测序质量分析:

包含多项内容,如测序reads碱基质量、GC含量、reads长度、k-mer分布


绿色:很不错  橙色:一般  红色:较差

Basic Statics中统计了测序数据类型、测序平台、测序数据中包含的总reads数、测序reads长度范围及测序reads的平均GC含量等


Per base sequence quality

以箱线图的形式展示了测序reads沿5’到3’方向所有碱基的测序质量值的分布。图中,横坐标为碱基在reads中的位置,纵坐标为单碱基错误率Q,其中Q = -10*log10(error P)即20表示1%的错误率,30表示0.1%。

根据测序技术的特点,测序片段末端的碱基质量一般会比前端的低,属正常现象。若reads末端测序质量明显较差,可考虑将末端碱基统一裁剪去除。

若任一位置的下四分位数低于10或中位数低于25,报“WARN”;若任一位置的下四分位数低于5或中位数低于20,报“FAIL”。

在本示例中,我们可见测序数据“reads_1.fq”中的碱基质量几乎全部集中在低质量区域(红色区域),表明该数据测序质量较差。


Per base sequence quality

Per sequence quality scores,横轴为reads碱基平均质量值,纵轴是reads数目。若测序质量越高,则绝大多数reads分布在高质量值区域,即曲线峰值的横坐标对应在高分区。

当峰值横坐标小于27(错误率0.2%)时报“WARN”,当峰值横坐标小于20(错误率1%)时报“FAIL”。


Per sequence quality scores

Per base sequence content,统计了测序碱基A、T、C、G的含量分布,可以一定程度上反映测序是否正常。图中横坐标为碱基在reads中的位置,纵坐标为该位置处各碱基含量百分比,根据碱基互补原则,A和T的比例应该接近,C和G的比例也应该是接近的。

实验过程所用的随机引物会引起前几个位置的碱基组成出现波动,这属于正常情况,或者可考虑将5'端前几个位置处的碱基统一裁剪去除。

当任一位置的A/T比例与G/C比例相差超过10%,报“WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报“FAIL”。

所以看咱这个序列怎么这么奇怪呢,前面反而没有波动,后面咋回事???

Per base sequence content

Per sequence GC content,展示了测序reads的GC含量分布。图中横坐标为reads GC含量,纵坐标为reads数量;蓝色曲线为理想状态下的GC含量曲线(显著单峰),红色曲线为实际的GC含量曲线。

若红色曲线与蓝色曲线的拟合程度越高,则测数据序质量越好。曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads),形状接近正态但偏离理论分布的情况提示我们可能有系统偏差,当红色出现双峰是表示混入了其它DNA序列。

偏离理论分布的reads超过15%时,报“WARN”;偏离理论分布的reads超过30%时,报“FAIL”。

你看这做的什么鬼东西???

Per sequence GC content

Per base N content,当出现测序仪不能分辨的碱基时会产生N,该图统计了N碱基的含量分布。图中横坐标为碱基在reads中的位置,纵坐标为该位置处N碱基含量百分比,N碱基含量越低越好。

当任一位置N的比率超过5%报“WARN”,超过20%报“FAIL”。所以咱的基本是超过5%的,梅西了。



Per base N content

Sequence Length Distribution,统计了测序reads的长度分布,图中横坐标为reads长度,纵坐标是reads数目。

对于测序原始raw reads,每次测序仪测出来的长度在理论上应该是完全相等的;对于质控后的clean reads,由于切除测序接头、低质量碱基等后会导致长度出现波动,但就“好的测序数据”来讲,reads长度分布仍然集中在最长区域。

你看看你,这长度波动这么大,你想上天啊?

Sequence Length Distribution

Sequence Duplication Levels,统计序列完全一致的reads的频率,判定为duplication reads(重复序列),由二代测序过程中PCR的偏好性扩增导致。一般测序深度越高,越容易产生一定程度的duplication reads,属于正常现象。图中,横坐标表示duplication的次数,纵坐标表示duplication reads的数目的百分比。理论上,duplication reads的比例越低越好。

当测序数据量很大时,使用全部数据计算duplication reads将相当费时,此时FastQC会选取数据中前200000条reads统计其在全部数据中的duplication reads情况,同时重复数目大于等于10的reads被合并统计。由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。

当duplication reads占总数的比例大于20%时,报“WARN”;当duplication reads占总数的比例大于50%时,报“FAIL”。


Sequence Duplication Levels

Adapter Content,统计测序reads两端接头序列(adapter sequence)长度所占比例,图中横坐标为碱基在reads中的位置,纵坐标表示该位置的碱基为测序接头序列碱基的百分比。

对于raw reads来讲,会存在一定比例的测序接头序列,需要过滤去除;而对于clean reads来讲,理论上测序接头序列应当已经被过滤干净。没有!看见没?这就是艺术!


Adapter Content


参考

https://www.jianshu.com/p/1fb5d5ccdfb9

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容