4.单细胞RNA测序: cellranger web 报告中的指标解读及合理范围!!!!

part1: 释义

在单细胞RNA测序(single-cell RNA sequencing)分析中,几个与细胞质量评估相关的关键指标,以及如何解读条形码(barcode)排名图。这些指标帮助我们了解测序数据的质量、细胞的捕获情况、UMI(Unique Molecular Identifier)计数和基因的表达情况。下面我会详细解释每个术语及其含义。

  1. Cells(细胞)

    • 这是指在实验中检测到的实际细胞数量。这个值是通过分析与细胞相关联的条形码(barcodes)来估算的。条形码是单细胞测序中用于标记和区分不同细胞的序列。

  2. Estimated Number of Cells(估计细胞数量)

    • 估计的细胞数量是指至少与一个细胞相关联的条形码的数量。每个条形码对应一个单细胞,因此通过统计这些条形码的数量可以估算实验中捕获的细胞总数。这个指标帮助你了解实验捕获了多少细胞。

  3. Fraction Reads in Cells(细胞内的读段比例)

    • 这是指那些拥有有效条形码并且被精确地映射到基因组的序列读段(reads)中,有多少比例是与细胞条形码相关联的。这个值的高低可以反映测序数据的质量。如果比例较高,意味着大部分读段确实来源于细胞,而非背景噪音。

  4. Mean Reads per Cell(每个细胞的平均读段数)

    • 这是指测序读段的总数除以细胞条形码的数量,计算出每个细胞平均分配到的读段数量。这个指标帮助你了解每个细胞捕获了多少测序数据,通常反映实验中的数据深度。

  5. Median UMI Counts per Cell(每个细胞的中位UMI计数)

    • UMI是指测序时为了去除PCR扩增偏差而使用的唯一分子标签。这个指标表示每个细胞条形码关联的UMI计数的中位数,帮助你了解在不同细胞之间,UMI的分布情况。UMI数的多少可以反映出每个细胞中检测到的转录本数量。

  6. Median Genes per Cell(每个细胞的中位基因数)

    • 这个指标表示每个细胞条形码检测到的基因数的中位数。基因检测是基于至少有1个UMI计数的基因。这帮助你了解每个细胞中平均表达了多少个基因,通常用于评估测序数据的复杂性。

  7. Total Genes Detected(检测到的总基因数)

    • 这是指在所有细胞中,至少有一个UMI计数的基因总数。这表明整个数据集里,有多少基因在至少一个细胞中表达。这可以反映出实验中基因表达的广度。

  8. Barcode Rank Plot(条形码排名图)

    • 该图显示了每个条形码的UMI计数(即与每个条形码关联的UMI数量)。条形码的排名是根据UMI计数的降序排列,排名靠前的条形码往往对应着含有更多UMI计数的细胞。需要注意的是,条形码是否与细胞相关联不仅仅取决于UMI计数,还可能根据表达特征进行判定。图中还可能显示通过蛋白聚集检测和过滤(Protein Aggregate Detection and Filtering)或高占用GEM(Gel Bead in Emulsion)过滤(High Occupancy GEM Filtering)去除的背景条形码。
    • 在条形码排名图中,不同颜色表示不同区域的条形码密度,帮助你区分哪些条形码与细胞有关,哪些与背景噪音有关。当你悬停在图上的某个区域时,会显示该区域中条形码被判定为细胞的数量及百分比,同时显示该区域的条形码的UMI计数和条形码排名。


    image.png

part2: 范围

在单细胞RNA测序分析中,不同实验的条件、测序平台、细胞类型等因素都会影响这些质量控制(QC)指标的合理范围。因此,具体数值的“合理性”需要结合实验背景来评估。以下是一般情况下,每个指标的参考范围和判断标准:

  1. Estimated Number of Cells(估计细胞数量)

    • 参考范围:根据实验的设计,捕获的细胞数量通常在几千到几十万之间不等。如果使用10X Genomics平台,通常单次实验可以捕获大约3000到10万的细胞。
    • 判断标准:估计细胞数量应符合实验设计。如果捕获的细胞数明显低于预期,可能意味着细胞捕获效率较低,或者部分细胞丢失。如果过高,可能表明有噪音或污染存在。

  2. Fraction Reads in Cells(细胞内的读段比例)

    • 参考范围:一般来说,该值应高于60%-80%,意味着大部分测序读段来自真实的细胞条形码。如果这个比例过低,说明很多读段可能是噪音或背景。
    • 判断标准:如果比例低于60%,则表明实验中的条形码分配存在问题,或者细胞捕获效率较低。理想情况下,该值应越高越好。

  3. Mean Reads per Cell(每个细胞的平均读段数)

    • 参考范围:对于10X Genomics平台,每个细胞通常至少有2万-5万读段,达到高覆盖度的实验可以达到10万读段或更多。
    • 判断标准:如果每个细胞的平均读段数低于1万,可能表明测序深度不够,导致数据质量不高。如果数值过高,可能存在数据冗余,表明测序深度超过了所需。

  4. Median UMI Counts per Cell(每个细胞的中位UMI计数)

    • 参考范围:该值通常在数千至数万之间,具体取决于实验设计和细胞类型。常见范围为1000到5000左右的UMI计数。
    • 判断标准:UMI计数越高,意味着在每个细胞中检测到的转录本越多。如果中位UMI计数低于500,可能表明捕获效率低或测序深度不足。

  5. Median Genes per Cell(每个细胞的中位基因数)

    • 参考范围:对于哺乳动物细胞,通常每个细胞会检测到1000-3000个基因。如果是某些高度活跃的细胞(如免疫细胞),这个值可能更高。
    • 判断标准:每个细胞的中位基因数应至少在800-1000个以上。如果远低于这个数值,可能表示实验数据的覆盖率或细胞活性较差。如果检测到的基因数过多,也可能提示捕获了一些双细胞(doublet)或存在噪音。

  6. Total Genes Detected(检测到的总基因数)

    • 参考范围:检测到的基因总数通常取决于实验的深度和细胞类型。一般情况下,可以检测到20000-30000个基因。
    • 判断标准:这个指标反映了整个数据集的基因表达广度。如果检测到的基因数过少,可能是测序深度不够或细胞活性较差。反之,如果总基因数过高,可能意味着有噪音或双细胞污染。

  7. Barcode Rank Plot(条形码排名图)

    • 参考解读:条形码排名图的目的是帮助你区分细胞条形码和背景噪音条形码。通常情况下,在条形码排名图的高UMI部分会看到一个“膝盖”形状的拐点,拐点之前的条形码被认为是真正与细胞关联的,之后的条形码则是背景噪音或低质量条形码。
    • 判断标准:拐点清晰,且前半部分条形码的UMI计数较高(通常每个条形码UMI计数大于100),表示细胞与背景条形码区分明确。如果没有明显的拐点,或者很多条形码的UMI计数较低,可能表明实验数据中存在较多背景噪音或低质量条形码。

欢迎一起讨论交流,来合作呀!
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容