一文读懂FastQC Report

前言:从今天开始就开始为拼装转录组做准备啦,今天听了技能树组织的生信人论坛,感觉很有意思。特此声明:本文所有代码及文件经通过本人亲自实践!绝对没有副作用!当然希望大家多提出宝贵意见,这样可以方便我更好的学习和进步。

特别注意:本文所用数据已经经过Trimmomatic清洗!

Basic Statistics

总览,来判断测序质量

图1 Basic Statistics

Encoding:测序平台信息,我也不知道这个样本的测序信息对不对,所以这里就没有办法深入解释了。

Total Sequences:测序获得的reads数目,测序质量的重要评价手段。

Sequences flagged as poor quality:标记为差的碱基序列,这个貌似没有神马用处

Sequence length:测序获得长度

%GC:整个测序中碱基GC所占比例,一般有物种特异性。

注意:Sequence length GC

Per base sequence quality

图2 Per base sequence quality

横坐标:碱基所在的测序位置,这个一般根据不同测序平台会有不同。

纵坐标:测序质量。20%代表错误为1%的错误读取率,30%代表0.1%的错误读取率。

图例:箱线图,25-50-75%代表数据所处位置。

注意:理论来说好的测序结果应该都在绿色和黄色区域,红色区域代表测序质量较差。

Per tile sequence quality

图 3 Per tile sequence quality

横坐标:碱基所在的测序位置,这个一般根据不同测序平台会有不同。

纵坐标:tile的index编号(tile应该是flow cell - lane - tile中的单位。

注意:也是判定测序质量好和不好的依据,整张图应该以冷色调为主,如果出现大量暖色,则证明某些tail测序有些问题,在后期的处理过程中可以删掉那些暖色的tail。

Per sequence quality scores

1563507204317.png

从read的总体质量判定这次测序的质量,是质量分析的重要标准之一。

横坐标:测序质量。20%代表错误为1%的错误读取率,30%代表0.1%的错误读取率。

纵坐标:在该质量值下的read数目。

注意:峰应该集中在高质量区间,即图像起始点最好大于20。

Per base sequence content

图4 Per base sequence content

横坐标:还是碱基的数目

纵坐标:碱基的百分比

注意:ATCG碱基分布应该差异不大。两条紧挨着的线:AT、CG误差应小于10%,若大于该比值则认为测序风险大。由于测序仪调整造成前几个测序结果略有误差,同时也有同学指出可能是含有接头序列所导致的碱基偏好,可以通过后期工作将前几个碱基删掉。在本案例中由于测序质量很好,就没有进行删除操作(ps 查了几个资料,大家争议比较大,建议还是根据自身情况进行确定,至于删除与否建议参考biostar相关的帖子)。

Per sequence GC content

图5 Per sequence GC content

横坐标:每个read的平均GC比

纵坐标:该GC比下,read的数量

注意:蓝色是理论值,测序结果趋向蓝色越好。如果有其它污染会导致双峰图样。

Per base N content

图6 Per base N content

横坐标:又是碱基数目。

纵坐标:N(未知碱基)所占比例。

注意:未知碱基数目越少越好。

Sequence Length Distribution

[图片上传失败...(image-ee9921-1564222758518)]

横坐标:read的长度,本文中应该是125。

纵坐标:代表在该长度下read数目的多少。

Sequence Duplication Levels

图7 Sequence Duplication Levels

横坐标:序列重复等级

纵坐标:重复数量

注意:在测序建库PCR过程中,由一些基因扩增次数过多导致。重复次数为一次的比例越高越好。但由于本文中使用的是转录组数据,偏高正常,一旦移除会对后面定量分析计算带来困扰。

Overrepresented sequences

图8 Overrepresented sequences

大量重复序列:FastQC检测出的大量重复序列。

Adapter Content

图9 Adapter Content

横坐标:又又又是碱基所在位置。

纵坐标:接头所占比例。

注意:当FastQC参数中 -a中没有参数时,默认使用四种lillmina接头进行匹配。

Kmer Content

图10 Kmer Content

横坐标:又又又又是相同的内容。

纵坐标:观测值和预测值的比值。

注意:啥是K-mer啊?具体可以看参考资料5。其实就是一段短小的重复序列。

图11 K-mer统计图

这是前面k-mer=5时(软件默认)生成的表格,主要用于检查数量情况。

参考资料:

  1. (3)转录组之数据质控 https://www.jianshu.com/p/2ed3622ed4a8

  2. 【转录组入门】3:了解fastq测序数据 https://www.cnblogs.com/chenpeng1024/p/9166988.html

  3. 利用fastqc检测原始序列的质量 https://www.jianshu.com/p/a1eb03d63083

  4. Question: Sequence duplication levels-RNA Seq https://www.biostars.org/p/307361/

  5. Kmer content http://seqanswers.com/forums/showthread.php?t=16262

  6. FastQC analyses of trimmed MiSeq reads kmer content http://seqanswers.com/forums/showthread.php?t=40646

  7. Question: Kmer content failed in FastQC analysis https://www.biostars.org/p/340112/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351

推荐阅读更多精彩内容