引言
在高通量测序中,数据质量的好坏直接影响下游的基因组组装、变异检测和DNA甲基化分析等任务。尤其是在Oxford Nanopore Technologies(ONT)平台中,测序数据质量需要估计读取精度、观察读取精度和模态读取精度三种指标的共同分析。这些指标各自反映不同的数据特性,能更全面地评估测序数据的可靠性与一致性。
本文将详细阐述这三种读取精度的定义、计算方式、应用场景,并结合《Unraveling the whole genome DNA methylation profile of zebrafish kidney marrow by Oxford Nanopore sequencing》一文中的实际案例分析,说明它们之间的关系及重要性。
1. 估计读取精度(Estimated Read Accuracy)
1.1 定义与计算方式
估计读取精度是基于测序过程中每个碱基的质量得分(Phred Score),预测每段读段中正确碱基的比例。Phred得分通过测序仪器对信号强度的分析生成,反映了仪器对每个碱基识别的自信程度。
公式:
Estimated Read Accuracy = 1 - 10^(-Q / 10)
其中,Q
为碱基的Phred质量得分。
1.2 意义
- 评估仪器性能:估计精度是仪器对数据质量的理论预测,能够快速评估测序是否在预期范围内运行。
- 快速筛查数据质量:研究人员可以在测序完成后立即查看估计精度,初步判断数据的质量。
1.3 限制
- 无法反映真实测序误差:估计精度仅基于算法预测,可能忽略样本处理或比对过程中产生的错误。
2. 观察读取精度(Observed Read Accuracy)
2.1 定义与计算方式
观察读取精度是通过将测序读段与参考基因组比对后,根据实际发生的错配、插入和缺失碱基来计算的精度。
公式:
Observed Read Accuracy = N_match / N_total
其中,N_match
为正确比对的碱基数,N_total
为所有碱基的总数。
2.2 意义
- 反映真实数据误差:观察精度是实际测序结果的直接表现,包含了实验过程中产生的所有误差。
- 用于质量控制:如果观察精度与估计精度差异过大,可能提示样品污染、仪器异常或数据处理错误。
2.3 限制
- 依赖参考基因组:观察精度需要将读段与参考基因组比对,若参考基因组不完整或质量差,可能导致观察精度偏低。
3. 模态读取精度(Modal Read Accuracy)
3.1 定义与计算方式
模态读取精度指的是测序数据集中出现频率最高的读取精度,代表了该数据集的主流水平。这一指标通过统计每段读段的精度值,选取出现次数最多的精度作为模态精度。
3.2 意义
- 反映数据的一致性:模态精度能揭示数据集中大部分读段的质量水平,不受极端值的影响。
- 更具代表性:相比于平均精度,模态精度能够更好地代表数据的典型表现。
3.3 限制
- 忽略少量极端值:若数据集中有一些低质量读段,模态精度可能会忽略这些异常数据。
4. 为什么需要这三种精度?
在实际测序过程中,使用这三种精度指标是为了更全面地评估数据质量:
- 估计精度提供了理论性能的预测,适合监控仪器状态和初步判断数据质量。
- 观察精度揭示了样本处理和测序流程中的真实误差,反映了数据的实际质量。
- 模态精度则避免了极端值的影响,展示了数据的主流质量水平。
通过结合这三种精度,研究人员能够发现潜在问题(如污染或仪器异常)、优化数据处理,并确保下游分析的准确性。
5. 案例分析:斑马鱼肾髓样本的测序质量
在《Unraveling the whole genome DNA methylation profile of zebrafish kidney marrow by Oxford Nanopore sequencing》一文中,研究人员对四组样本(KM1、KM2、KMB1和KMB2)的读取精度进行了详细分析:
- 估计读取精度:KM组样本的估计精度为95%,KMB组为92.5%。
- 观察读取精度:KM组样本的观察精度为92.5%,KMB组下降到90%。
- 模态读取精度:KM1和KM2的模态精度超过95%,而KMB1和KMB2低于95%。
这些结果表明,血液污染降低了数据质量。KM组样本的所有精度指标均优于KMB组,证明去除血液污染后,读段质量更加稳定和一致。
6. 三种精度的比较
指标 | 计算方式 | 意义 | 局限性 |
---|---|---|---|
估计读取精度 | 根据Phred质量得分预测 | 反映理论数据质量 | 可能忽略实际误差 |
观察读取精度 | 通过比对参考基因组计算错配、插入和缺失碱基的比例 | 反映真实数据误差 | 依赖参考基因组的质量 |
模态读取精度 | 统计出现次数最多的精度 | 展示数据的一致性和主流水平 | 忽略极端值的影响 |
7. 结论
在Oxford Nanopore测序中,估计精度、观察精度和模态精度相互补充,共同为数据质量提供了全面的评估。这三种精度指标帮助研究人员优化测序流程、发现数据问题,并确保下游分析的可靠性。在斑马鱼肾髓DNA甲基化研究中,研究人员通过这些指标揭示了血液污染对数据质量的负面影响,并为未来的样品处理和测序策略提供了参考。
8. 参考文献
- Liu, X., et al. (2023). Unraveling the whole genome DNA methylation profile of zebrafish kidney marrow by Oxford Nanopore sequencing. Scientific Data. https://doi.org/10.1038/s41597-023-02431-5