生信分析学习笔记 - RNAseq (三) FastQC评估 - 简书 (jianshu.com)
质量检测:FastQC - 简书 (jianshu.com)
转录组数据分析——原始数据质量控制(QC) - 简书 (jianshu.com)
image.png
分别是文件名称,文件类型,测试平台,总序列数,质量差序列数,序列长度和GC占比
image.png
绿色区域代表完全正常,黄色轻度不正常,红色非常不正常,横坐标为读段,纵坐标为测序质量评估,这里的Quality score=-10*lg10(error P),20%Q表示1%的错误读取率,30%为0.1%错误读取率。黄色块的上下线表示质量25%和75%;蓝色线,平均数;红色线,中位数。一般要求箱线图10%的线大于Q=20。
image.png
表示总体reads平均Q值的分布,横坐标为Q值,纵坐标为读数,越多读数的Q值集中在高分区说明质量越好
image.png
四种碱基在读段不同位置的百分比,横坐标是测试碱基的位置,纵坐标为碱基百分比,理论上百分比差别不大,前端差别较大可能是仪器设备导致的偏差,后端差别较大可能是adapter没有清除,后续可在数据预处理中将其剪出,差异超过10%则非常不好。
image.png
表示GC碱基在所有序列中的分布,红色线表示样品,蓝色线表示理论,双峰可能混有其他物种的DNA
image.png
不确定碱基的含量
image.png
横坐标为序列长度,纵坐标为序列数,理论上都一样
image.png
统计序列完全一样的读数的频率,程度很高可能是bias存在如建库PCR复制,横坐标是一样的次数,纵坐标是一样的reads,以unique reads作为100%
image.png
大量出现的某个序列
image.png
横轴表示碱基位置,纵轴表示百分比,