CroCoDeEL：无对照准确检测宏基因组数据中交叉样本污染

小编导读

从上图的这篇婴儿间的菌株传播塑造了正在发育的肠道微生物群的文章中看到利用了这个去污染的方法，比较好奇，分享学习一下！虽然暂时还是预计印的状态，相信不久就会发表在给力的杂志上。
宏基因组测序在微生物组研究中应用广泛,但样本间交叉污染这个技术问题一直被严重低估。这种污染通常发生在96孔板中相邻样本之间,会导致物种丰度失真、假阳性发现,甚至影响研究结论的可靠性。现有检测方法要么依赖阴性对照(成本高且不够全面),要么基于菌株水平分析(计算量大且无法区分自然菌株共享)。研究开发的CroCoDeEL工具另辟蹊径,仅需物种丰度表就能准确识别污染样本及其污染源,还能估算污染比例。更重要的是,研究团队在多个高引用率研究中发现了严重的未报告污染问题,提示这可能是宏基因组领域普遍存在却被忽视的质控盲区。

摘要

背景宏基因组测序能深入解析微生物群落,但常受技术偏倚影响,其中交叉样本污染尤为突出。这种污染源于实验室处理过程中样本间的物质交换,会扭曲微生物谱并影响下游分析的可靠性。现有检测方法依赖阴性对照,既不方便也无法检测真实样本内部的污染。而菌株水平的生信分析方法既无法区分污染与自然菌株共享,灵敏度也不足。

结果研究团队开发了CroCoDeEL,这是一个无需对照的交叉样本污染检测和定量工具。该工具通过线性建模和预训练的监督学习模型,识别物种丰度谱中的特异性污染模式。在三个公开数据集的基准测试中,CroCoDeEL准确检测出污染样本并识别污染源,即使在低污染率(小于0.1%)情况下也能有效工作,前提是测序深度足够。值得注意的是,研究团队在多个高引用率研究中发现了严重污染案例,这些污染可能影响了原研究的部分结论。

结论交叉样本污染是宏基因组学中普遍存在但研究不足的问题。研究结果强调了将污染检测系统性整合到测序质控流程中的必要性。

方法

研究的核心算法基于一个关键发现:当样本发生交叉污染时,污染特异性物种(即仅存在于污染源而不存在于被污染样本的物种)在两个样本间的相对丰度呈正比关系,比例系数等于污染率。在对数转换的散点图上,这些物种会形成一条特征性的"污染线"。

算法分四步运行。第一步是候选物种筛选,选出那些在两样本中都存在但在疑似污染源中丰度更高的物种,并过滤掉左上象限有较多其他物种的点。第二步使用RANSAC回归器检测潜在污染线,该算法能拟合y=x+b形式的线性模型,其中参数b是线偏移量,用于区分内点(inliers)和外点(outliers)。如果内点少于5个,直接判定为非污染。第三步提取十个特征来描述污染线特征,包括构成污染线的物种数量、线的紧密度和离散度、Spearman相关系数、线性回归残差等。这些特征是通过人工标注和递归特征消除法(RFECV)筛选出来的。第四步将提取的特征输入预训练的随机森林模型(1000棵树)进行分类,如果预测概率≥0.5则判定为污染,并根据线偏移量b计算污染率r=10^(-b)。

训练数据集构建很有讲究。研究者从11个独立队列的15203个样本中生成了15000个样本对的半模拟数据集。其中7500对模拟了污染情况,通过混合基因计数矩阵(而非简单的丰度线性组合)来实现,污染率在0-100%范围均匀采样,其中2000对专门聚焦在0-5%的低污染区间。测序深度也在1-20M reads间变化。所有数据都用Meteor2进行分类学定量,生成物种丰度表后由人工专家(L.G.和G.G.)逐一检查散点图,剔除因测序深度不足或污染率过低而看不到污染线的样本对,最终得到7480对非污染和5850对污染的标注数据。

物种丰度定量默认使用Meteor2流程。质控步骤包括用fastp去接头、修剪低质量reads、丢弃短于60bp的reads(Ion Torrent数据用AlienTrimmer),然后用Bowtie2比对人类基因组T2T CHM13v2.0并去除人源reads。干净的微生物reads比对到更新的人类肠道微生物整合基因目录IGC2(1040万个基因),核苷酸一致性低于95%的比对被丢弃。基因计数采用两步法处理多比对reads,然后按基因长度标准化。IGC2被聚类成1990个宏基因组物种(MGS),每个MGS的丰度计算为其100个标志基因的平均丰度,如果检测到的标志基因少于10%则丰度设为0。

为评估不同分类器的影响,研究还用Sylph(v0.6.0,基于GTDB r214)和MetaPhlAn4(v4.1.0,vJun23数据库)进行了对比分析。

实验验证方面,研究者从两个不相关个体采集粪便样本MQB_068和MQB_095,提取DNA后按90:10比例混合制备了MQB_095_l2作为10%污染率的真实污染样本,三个样本都进行了shotgun测序验证。

主要结果

污染线的发现与验证 在真实混合样本实验中,MQB_095_l2(被MQB_068以约10%污染)的物种丰度散点图清晰展现了污染线特征。所有MQB_068中丰度较高的物种都在MQB_095_l2中被检测到(y轴上无点),且部分共有物种沿一条直线排列,表明这些是污染引入的特异性物种。相比之下,两个未污染样本MQB_095和MQB_068的对比图中没有这种模式。更重要的是,MQB_095的物种丰富度(194)显著低于其污染版本MQB_095_l2(319),意味着39%的检出物种实际是污染假象。

分类器性能 在三个真实人类粪便宏基因组测试集上(样本量分别为110、128、237),CroCoDeEL表现一致。Matthews相关系数均在0.7左右,召回率平均95%,说明能检出人工专家标注的绝大多数污染案例。精确度约50%,但这里的"假阳性"值得商榷——这些案例多数污染率很低(平均0.26%),分类器给出的置信度也显著低于真阳性(概率0.73 vs 0.92,p<2.2×10^-16)。当在跨数据集的140972个样本对(理论上不可能污染)中测试时,仅检出5个假阳性,证明了在污染确实不存在时工具的高特异性。

假阴性分两类:一类是极低污染率且人工专家信心也不高的案例;另一类更棘手,是一些高污染但污染线模糊的情况,比如两个样本都被第三方污染导致的传递性相似,或者"级联污染"(一个样本污染另一个后自己又被污染)。

计算资源方面,在标准节点(双Intel Xeon E5-2680,16核256GB内存)上处理百个样本仅需数分钟,运行时间与样本对数呈线性关系,CPU并行效率约0.85,内存消耗低且稳定。

测序深度、污染率和分类器的影响 用25个半模拟样本对系统评估了影响因素。测序深度和污染率都是关键因素(p<2×10^-16)。以Meteor2为例,20%污染率时即使1M reads也能全检出,但2%污染率时需要10M reads才能达到92%召回率(1M reads仅40%)。

分类器选择影响巨大。在10M reads、0.5%污染率条件下,Meteor2的召回率达76%,而Sylph仅4%,MetaPhlAn4完全检测不到。原因在于Meteor2对亚优势物种的检测灵敏度更高,定量也更准确,能在污染线上产生更多物种且离散度更小。MetaPhlAn4系统性低估亚优势物种丰度,干扰了污染线检测,虽然过滤掉低丰度物种后有所改善,但Meteor2仍是低测序深度/低污染率场景的唯一有效选择。

与菌株共享方法的对比 在Lou等人的婴儿纵向队列研究(P3板)中,菌株共享方法仅识别出2个污染样本(阴性对照NC3和样本63D9),且无法确定具体污染源。CroCoDeEL则检出16个人工验证的污染事件,涉及12个污染样本。CroCoDeEL不仅确认了63D9被58D256和60D38污染(与这两个样本共享菌株数最多),还发现NC3被82D361、83D88和83D249污染而非82M。

更关键的是,CroCoDeEL检出了菌株方法无能为力的场景:同一婴儿不同时间点样本间的污染(如63D9被其后期样本63D250以70%污染)、双胞胎样本间污染(58D256污染60D38)、母婴样本污染(58M以63%污染58D7,后者物种丰富度达223远超同龄婴儿)。这些都因自然菌株传递而被菌株方法排除,但CroCoDeEL利用婴儿肠道菌群随时间演化的特点成功识别。

未检测污染导致的错误结论 在Lou等人关于婴儿肠道定植的另一项研究中,作者认为P1、P2、P5板无污染,但CroCoDeEL在P2中发现8个污染事件,包括关键案例57D8被母亲样本57M以23%污染。原研究报道的"母亲菌株在婴儿出生时定植但未持续"很可能是污染假象而非真实定植。

在Ferretti等人的高引用率婴儿研究中,182个样本中有48个被污染(26%)。原文报道的56个"瞬时出现"微生物中,80%(45个)实际来自5个被大量污染(污染率>10%)的新生儿粪便样本。原研究观察到婴儿首次采样(t1)的物种多样性显著高于后续时间点(t2: p=0.005, t3: p=0.003),但剔除高污染样本后这种差异消失(t2: p=0.12, t3: p=0.56),说明表观多样性增高只是污染假象。

在TwinsUK队列的1004个成人粪便样本中,CroCoDeEL检出202个污染样本,其中176个关联到8个相同污染源。这8个源样本彼此极相似(Spearman ρ>0.96)且物种丰富度异常高(782±8),疑似是多样本混合物的重复。污染样本间的Bray-Curtis距离(0.40)显著小于非污染样本(0.53, p<2×10^-16),物种丰富度也更高(425 vs 303, p<2×10^-16)。在至少出现于10个样本的1382个物种中,32%(440个)在污染样本中流行率显著更高(FDR≤0.01),凸显了基于该队列的众多研究需要重新评估的紧迫性。

结论

研究证实交叉样本污染会在物种丰度谱中产生特异性的"污染线"模式,这种模式在非污染样本对中出现概率极低(少于万分之一)。CroCoDeEL通过自动检测这一模式,实现了无需阴性对照、不依赖样本位置信息的污染识别,能同时确定污染源和被污染样本,并估算污染率。工具在真实数据上达到约0.7的Matthews相关系数和95%的召回率,且计算效率高。

参考文献

Goulet, L. et al. "CroCoDeEL: accurate control-free detection of cross-sample contamination in metagenomic data" bioRxiv (2025). https://doi.org/10.1101/2025.01.15.633153
Ricci, L., Heidrich, V., Punčochář, M. et al. Baby-to-baby strain transmission shapes the developing gut microbiome. Nature (2026). https://doi.org/10.1038/s41586-025-09983-z
https://github.com/metagenopolis/CroCoDeEL

CroCoDeEL：无对照准确检测宏基因组数据中交叉样本污染