Ai基因测序
尽管已有众多案例表明WGS在病原菌分型与溯源中的优势,但在实际应用中依旧面临着众多挑战。例如,目前尚缺乏国际通用的细菌基因组数据采集与分析的标准化流程,尤其是学界难以统一关于暴发克隆的判断标准(阈值),即菌株间相差多少SNP才可被视为同一克隆并归属于同一暴发事件,同一菌株在不同实验室SNP差异都有可能达到15个 。
在一项对NCBI数据库中的所有ST195型鲍曼不动杆菌的比较基因组学研究中,对2850株鲍曼不动杆菌进行cgMLST分型,并构建最小生成树与贝叶斯系统发育树,以预测ST195型鲍曼不动杆菌的进化起源与分化时间。系统发育学研究结果显示,菌株间SNP数量分布于0–3,等位基因差异数分布于0–14。一些分离地点相距甚远的菌株亲缘关系却十分接近(< 8个等位基因或 < 20个SNP),甚至没有超过本国分离菌株,也低于Higgins等学者提出的同一克隆暴发流行的参考阈值,存在跨国传播的可能性较大。
由于便捷的全球旅行使医院获得性和食源性细菌病原体能轻易越过地理障碍,无症状携带者也会造成直接流行病学证据链的缺失,所以制定准确且通用的病原菌暴发流行克隆的判断标准至关重要。理想状态是存在一个简单阈值可以鉴别所有类型的病原菌暴发事件,但在实际应用中往往受到时间、空间、流行病学特征以及WGS数据分析方法的限制,不同菌种甚至同种病原菌的不同血清型之间也存在着差异。
例如,有研究表明沙门菌中的肠炎沙门菌通常呈高度克隆传播趋势,而鼠伤寒沙门菌则不然。因此,笔者认为基于WGS技术的病原菌分型与溯源结果仍需结合具体菌株分离时间与空间、基因组学与遗传进化特征等参数来解释,尤其是局部暴发事件的菌株(短时间)与全球范围的分离株(长时间)相比,一些刚刚累积的突变可能尚未经过纯化选择的作用而得以消除,使得正在经历适应性进化的谱系比那些已经历过纯化选择的谱系能更快地积累突变,从而可能会影响病原菌分型与溯源结果的解读。此外,细菌的生存环境也可施加选择压力(如:医院内的抗生素选择压力),从而影响其突变率和传代周期,故仅依据某个特定的阈值来鉴别病原菌暴发事件可能难以适应复杂多变的溯源应用场景。又如:在一项肠炎沙门菌的传播溯源研究中,Payne等学者就提出应设立动态SNP阈值来鉴定暴发事件,即对4周内的疑似暴发事件应以0 SNP为阈值,从而提高鉴别的灵敏度和特异性,而对超过4周的事件应使用动态阈值(如0–5 SNPs)。基于上述分析,不同的分析策略、人员取样的偏差以及流行病学信息的完善度都会影响病原菌暴发事件的溯源结果,准确鉴别暴发事件还需要研究人员因地制宜和因“菌”而异。
贾慧琼, 阮陟. 全基因组测序在病原菌分型与溯源中的应用研究进展. 微生物学报, 2022, 62(3): 949-967.
我找了几篇有代表性的文章:
📌2018年美国FDA调查了一起与委内瑞拉进口蟹肉相关的副溶血性弧菌暴发事件。通过全基因组测序分析,发现18株临床分离株之间的SNP差异为0–16个,其中大多数菌株之间的差异在0–7个SNP以内,表明这些菌株高度相关,可能源自同一污染源【 doi: 10.1089/fpd.2022.0078.】。
📌对亚洲地区急性肝胰腺坏死病暴发中分离的副溶血性弧菌菌株进行全基因组SNP分析,发现不同地区的菌株之间存在35,001至35,889个SNP差异。研究提出,若两菌株每年SNP差异小于10个,用于计算突变差异的公式为:N= Nt/(y1-y2),其中 Nt 是两个分离株之间的成对 SNP 差异,其中 y1 和 y2 是两个分离株的分离年份。如果 N>10,则认为两个分离株无流行病学联系可认为属于同一暴发克隆。【 doi: 10.3389/fmicb.2017.02354.】
📌 沙门氏菌田纳西血清型(S. Tennessee)的SNP分析在2007年美国花生酱相关的全国性暴发事件中,研究人员对176株Salmonella Tennessee菌株进行了84个位点的SNP分型分析。结果显示,所有与暴发相关的菌株均聚集在同一系统发育分支中,彼此之间的SNP差异极小(仅1–2个SNP),而与非暴发相关菌株的SNP差异则在48–80个之间。这表明,SNP差异小于20的菌株很可能来自同一溯源事件
📌 研究人员对五个暴发事件中的Salmonella Typhimurium菌株进行了建模分析,发现同一暴发事件中的菌株之间的SNP差异范围为1至21个。
📌 全球食源性疾病的基因组视角
分析了美国疾病控制与预防中心(CDC)收集的多种食源性病原菌的全基因组数据,探讨了不同SNP阈值(如2、4和8个SNP)在暴发检测和溯源中的应用效果。【Genomic perspectives on foodborne illness】
同一菌株在不同实验室SNP差异都有可能达到15个 --这一点很重要 “SNP差异多少个可以认为是同源的”这个问题,其实并没有一个绝对统一的标准,而是要根据以下几个因素来综合判断:
✅ 一、影响判断“是否同源”的关键因素
因素说明
🧬 物种类型不同物种的突变速率差异很大,细菌、病毒、人类之间无法通用标准
⏳ 进化时间时间越长,SNP累积越多
🔬 样本背景是否同一爆发事件?是否来自同一地理区域?
🌍 样本来源来自环境、宿主、食品等不同来源的标准不一样
🔎 分析方法有的是全基因组SNP,有的是核心基因SNP
🧫 二、不同领域的常见参考标准(仅供参考)
🔬1. 细菌(如大肠杆菌、沙门氏菌、霍乱弧菌)
判定关系SNP数目差异参考
同源克隆株(same clone)0–5 SNP(一般认为是相同菌株)
同一传播事件(same outbreak)0–10 SNP(在同一个感染链中)
高度相关10–50 SNP
低相关性>50–100 SNP
无明显关系>100 SNP
🦠2. 病毒(如诺如病毒、新冠病毒)
病毒突变速度更快,使用“核苷酸替代数/位点/年”衡量(如 SARS-CoV-2 大约 1×10⁻³ /bp/year)
判断同源性常用系统发育树 + 流行病学数据
举例:新冠病毒中,<5 SNP 的差异可表示可能在1–2个月内传播的一条传播链。
👨👩👧👦3. 人群遗传学
判断人是否来自同一族群或家系,不看 SNP 数目,而看整体相似度(如 PCA、ADMIXTURE 等)
相同祖先个体之间 SNP 差异可达几万到几十万,但仍可以是同源
🧮 三、典型案例参考
研究对象SNP差异标准来源
大肠杆菌 O157:H7<5 SNP 视为同一克隆CDC, 2016
沙门氏菌0–10 SNP 为同一起暴发Zhang et al., 2019
霍乱弧菌<10 SNP 一般认为为同一传播链WHO cholera genomics
SARS-CoV-2<3–5 SNP 可能是家庭/密切接触传播Nextstrain/CDC
✅ 四、总结
结论建议
没有统一SNP数量标准必须结合物种、生境、分析方法综合判断
SNP差异小于10(细菌)通常可认为是同源或同一起暴发来源
病毒、宏基因组建议结合系统发育树或时间线分析