Basic Information
- 英文标题: gcPathogen: a comprehensive genomic resource of human pathogens for public health
- 中文标题:gcPathogen:一个全面的基因组资源库,涵盖了对人体健康构成威胁的各种病原体
- 发表日期:18 October 2023
- 文章类型:Na
- 所属期刊:Nucleic Acids Research
- 文章作者:Chongye Guo | Linhuan Wu
- 文章链接:https://academic.oup.com/nar/article/52/D1/D714/7321059
Abstract
- 这里,我们介绍了人工整理的全球病原体目录(gcPathogen),这是一个广泛而全面的基因组资源,旨在促进病原体分析、流行病学探索以及对抗生素耐药性和毒力因子监测的速度和准确性。
- 该目录无缝整合并分析了从感染患者、动物宿主、食物和环境中分离出的人类病原体的基因组数据及相关元数据。
- 病原体列表得到了来自医学或政府病原体清单及出版物证据的支持。
- 目前版本的gcPathogen拥有令人印象深刻的1,164,974个组装体,其中包括来自497种细菌分类单元的986,044株菌株,涵盖265种真菌分类单元的4,794个组装体,包含4,319株菌株,还有来自222种病毒分类单元的89,965个组装体,包含13,687株病毒株,以及来自159种寄生虫分类单元的646个组装体,包括387株寄生虫株。
- 通过这个数据库,研究人员能够获得一个全面的‘一站式服务’平台,这有助于全球长期的公共卫生监控,并且能够深入分析不同国家、疾病和宿主中的基因组、序列类型、抗生素耐药性基因、毒力因子和可移动遗传元件。
- 为了访问和探索数据与统计信息,已开发了一个交互式的网络界面,可以通过https://nmdc.cn/gcpathogen/进行访问。
-
这个用户友好的平台允许顺畅地查询和探索gcPathogen数据库中丰富的信息。
Introduction
Para_01
- 传染病是全球公共卫生面临的重大威胁之一。
- 基因组序列数据的快速积累对于支持传染病监测和流行病学调查变得越来越重要。
- 基于全基因组测序(WGS)数据的分型方法,如核心基因多位点序列分型(cgMLST)和全基因组多位点序列分型(wgMLST),因其在速度、成本效益和高分辨率方面的优势而被广泛采用,为监控、疫情调查、来源追溯和进化研究提供了大量信息
Para_02
- 病原体对抗生素产生耐药性的挑战对人类健康具有深远的影响。
- 识别抗生素抗性基因(ARGs)并追踪它们在不同病原体或同一病原体的不同亚型间的传播可以为药物开发、疾病预防和治疗提供宝贵的见解。
- 同时,毒力因子(VF)使病原体能够感染宿主并导致疾病。
- 识别和分析这些因子有助于确定大规模疾病爆发的发生。
- 抗生素抗性基因和毒力因子通常通过与可移动遗传元件(MGEs)的水平转移获得。
Para_03
- 尽管WGS数据的可用性支持了病原体的精确鉴定和对毒力因子、抗性基因及移动遗传元件多样性的深入理解,但当前的基因组资源并未覆盖所有已知的人类病原体,这限制了研究仅能针对一部分物种。
- 为了克服这一局限,一个全面的基因组资源库,涵盖所有已知的人类病原体,并辅以精心整理的元数据,将极大地促进跨越长时间尺度的全球研究,并显著提高传染病的控制和治疗水平。
- 此外,基因组数据分析和决策制定很大程度上依赖于数据可视化。
- 然而,现有的平台往往缺乏基因组和流行病学数据的整合,无法创建交互式的可视化工具。
Para_04
- 为了弥补这些空白,我们开发了gcPathogen(全球病原体目录),这是一个全面的基因组资源库,它汇集、整合并分析来自全球感染患者、动物宿主和环境样本中的人类病原体的数据。
- 该数据库依赖于人工精心整理的高质量数据,支持基因组分析、MLST、cgMLST以及ARGs、VFs和MGEs的分析,并且所有这些都可以通过交互界面完成。
- 这一强大的工具使经验丰富的研究人员能够进行更广泛深入的病原体研究,同时也让复杂的分析民主化,使得公共卫生专家、临床医生以及其他基因组学或生物信息学领域的非专家也能进行这些分析。
Database interface and features
Webpage of the pathogens
病原体的网页
Para_05
- 在gcPathogen中,我们已经按分类单元组织了细菌、真菌、病毒和寄生虫的DNA序列组装,以及相应的人工策划的元数据和分析结果(8),涵盖了属、种、亚种或血清型(图1A)。
-
病原微生物的基因组DNA序列数据是从公共数据库和出版物中收集的。
- 图 1. gcPathogen 网站的特点。 (A) gcPathogen 的主页。 (B) 病原体种类概览。 (C) 全球病原体、抗生素耐药基因和毒力因子的分布图。 (D) 病原体及其整理的元数据的知识图谱示意图。
Para_06
- 每个病原体的网页被划分为几个主要部分,包括概述、序列类型(STs 和 cgMLST)、抗生素抗性基因、毒力因子、可移动遗传元件和知识图谱(图 1B)。
- 概述部分展示了序列组装及其相关元数据的基本信息,如测序方法、提交者、基因组大小和参考基因组。
- 它还提供了一个全球分布地图、宿主类别、关联疾病、分离来源以及从同行评审出版物中手工整理的文字描述,这些文字描述涉及爆发或感染案例。
Para_07
- 对于每种病原体,STs部分提供了物种内所有STs的概览信息,包括相关基因组的数量、菌株、ARGs、VFs以及与ARGs和VFs相关的MGEs。
- 可以按年份或国家显示主要STs的信息,同时还提供代表性STs的相关性图谱。
- 此外,用户可以选择序列组装,并在线进行cgMLST分析,前提是能够访问相应的种子文件
Para_08
- ARGs、VFs 和 MGEs 部分为每种物种提供了所有注释的抗性基因、毒力因子和移动遗传元件的综合信息。
- 可以直观地绘制出对不同类型抗生素的耐药性,以及按国家、疾病、宿主和分离来源分布的耐药性、毒力和移动遗传元件的情况。
Feature resources
特征资源
Para_09
- 特征资源涵盖四个部分:高致病性病毒、注释的ARGs列表、VF和MGEs。
- 高致病性病毒旨在为评估疫情爆发风险、跨物种病毒传播及全球扩散提供数据支持。
- 这一部分包含了被分类为生物安全等级III和IV级的病毒。
- 提供了关于传播途径、宿主、分离来源及国家的统计分析。
- 同时,还展示了一个知识图谱,该图谱从出版物中提取出作者与机构之间的合作网络。
Para_10
- 在抗生素抗性基因部分,全面概述了病原体ARGs的概况,包括所有从病原菌注释的ARGs、每种物种中的高频ARGs以及世界卫生组织全球优先列表中的抗生素耐药细菌的主要ARGs。
- 使用表格和图表分析这些ARGs,涉及它们所在的国家、物种、栖息地及相关的MGEs。
- 同样地,整合并分析了VFs及其流行病学数据,采用交互式可视化。
- MGE列表部分涵盖了五类MGEs,包括插入序列(IS)、整合共轭元件(ICE)、整合子(IN)、质粒和转座子。
- 根据这些MGEs的分类分布、携带的ARGs和VFs以及分离的栖息地来分析它们,旨在了解由MGEs介导的病原体获得性抗性和毒力的发生和传播。
Statistic summary and database search
统计总结与数据库查询
Para_11
- "病原体和基因组特征"页面提供了细菌、真菌、病毒和寄生虫的数量统计概要,以及它们的物种分布、数据量和每种病原体类型的最大数据提交者。
- 所有病原体、抗性基因、毒力因子和移动遗传元件的全球分布可以根据年份和国家进行展示(图 1C)。
Para_12
- ‘高级搜索’功能使用户能够根据手动整理的元数据进行一项或多项目的搜索,这些元数据涉及:(i) 病原体信息,包括物种名称、采样日期、国家、分离来源、宿主、疾病和生物安全等级;(ii) 序列组装信息,包括测序平台、序列类型、组装级别和序列片段的数量。
Para_13
- gcPathogen 有效地利用语义网络技术,根据整理后的元数据展示病原体、分离源、疾病和宿主之间的联系(图 1D)。
- 这一"知识图谱"有助于用户整合不同类型的信息,从而获得全面的视角并识别出各种联系。
- 此外,gcPathogen 提供了一个搜索界面,用于探索所选病原体之间的联系。
Online data analysis pipelines
在线数据分析管道
Para_14
- gcPathogen 无缝集成多种在线工具,用于实现基因组的快速分析。
- ‘病原体鉴定’工具结合了 16S rRNA 基因序列和基因组平均核苷酸同一性(ANI),以给出物种鉴定结果。
- ‘基因组注释流程’在 gcType (10) 中高效注释细菌基因组。
- ‘MLST’流程使用 MLST 2.22.1 根据用户提交的基因组组装确定序列类型(ST),参照 PubMLST 分型方案。
- ‘cgMLST’流程利用 chewBBACA 2.0.9 (12) 将查询组装与预先计算的分型方案进行比较,生成包含相关元数据的系统发育树。
- 这些集成的流程依托高质量的参考数据集,使用户能够将自己的基因组数据与全球数据库进行比较,有效地检测疫情爆发并追溯其来源。
Database construction and analytical methods
Pathogen inventory and data sources
病原体清单及数据来源
Para_15
- 我们根据可靠来源的指导编制了一份人类病原体的详尽清单,这些来源包括世界卫生组织(http://ghdx.healthdata.org/gbd-2016)、美国国家过敏和传染病研究所的新兴传染病及病原体列表(https://www.niaid.nih.gov/research/emerging-infectious-diseases-pathogens)、中华人民共和国国家卫生健康委员会、美国疾病控制中心(https://search.cdc.gov/search/index.html?all=pathogen=1#results)、美国传染病学会和美国微生物学会。
- 这份清单还补充了疫情爆发报告和相关研究文章。
- 此外,世界卫生组织(WHO)发布的全球抗生素耐药细菌优先清单指导了我们针对新抗生素的研究、发现和发展工作。
Para_16
- 为了构建我们的数据库,我们从国家生物技术信息中心(NCBI)的基因组数据库中检索了清单中所有病原体的序列组装。
- 从BioSamples提取并整合了相关的元数据。
-
此外,这些数据还参照了PubMed中索引的同行评审出版物。(图2)
- 图 2. 在 gcPathogen 中使用的数据处理流程。
Para_17
- 该数据库当前版本包含了一个令人印象深刻的集合,共有1164974个组装体,涵盖了来自497种细菌分类群的986044个菌株(8),其中包含497种细菌分类群的4794个组装体,涉及265种真菌分类群的4319个菌株(8),89965个组装体涵盖了来自222种病毒分类群的13687个菌株(8),以及646个组装体,包括来自159种寄生虫分类群的387个菌株(8)。
- 这个庞大的数据集覆盖了全球198个国家和地区,提供了全球病原体的全面流行病学概览。
Data quality control
数据质量控制
Para_18
- 为了确保数据完整性,所有上传到gcPathogen的信息都经过了严格的质量控制检查,包括一致性、完整性和污染情况。
- 随后,对基因、MLST、cgMLST、ARGs、VFs和MGEs进行了数据分析。
- 只有通过checkM 1.1.3验证显示超过95%的完整性和低于5%的污染率的序列组装被保留下来。
- 此外,根据NCBI分类学,将序列组装分配给相应的属和种。
- 对于物种确定,如果组装的ANI在FastANI 1.3中与来自NCBI的RefSeq的参考序列相比超过95%,则认为它们属于同一物种。
- 此外,还手动对这些组装的宿主、分离来源和疾病相关的元数据进行了分类。
Sequence-based pathogen typing
基于序列的病原体分型
Para_19
- gcPathogen 对病原细菌进行了多态性序列分型(MLST)和核心基因组多态性序列分型(cgMLST)分析。
- 经过质量控制后,组装的数据被用于 MLST 分析,以确定它们的序列类型(ST)。
- 根据国家、分离来源、宿主和采集日期生成了基于 ST 的分布特征的图形展示。
- 此外,我们还研究了耐药基因(ARGs)/毒力因子(VFs)与每种物种的 ST 之间的关联,以识别特定 ST 的 ARGs/VFs 及其相应的 P 值。
Para_20
- 为了提高病原体来源的判别和监控能力,我们采用了基于全基因组测序(WGS)的核基因多位点序列分型(cgMLST)。
- 然而,由于某些物种公开可用的cgMLST方案有限,我们通过在gcPathogen中提供预计算的cgMLST方案来应对这一挑战。
- 我们使用基于BLAST得分比的等位基因调用算法(chewBBACA 2.0.9)对质量控制后超过200个组装的所有细菌种类进行了cgMLST分析。
- 在当前版本中,我们包含了针对9个属和95个种(总计112个种)的cgMLST方案文件。
- 这些方案包括来自Enterobase的6个,来自PubMLST的9个以及来自PathogenWatch的9个(cgMLST方案列于补充表S1中)。
- 此外,除了在线分析工具外,还提供了可下载的cgMLST方案文件,并随着更多组装的出现定期更新。
Annotation of antibiotic resistance genes, virulence factors and mobile genetic elements
抗生素抗性基因、毒力因子和可移动遗传元件的注释
Para_21
- 使用原核生物动态规划基因寻找算法2.6.3在质量控制的序列组装中预测基因。
- 随后,根据全面抗生素抗性数据库使用Diamond 0.9.22.123对抵抗基因进行注释,覆盖度超过80%。
- 此外,我们利用Resfams数据库和HMMER 3.1有效地识别已知ARGs的甚至远亲同源物(覆盖度大于80%)。
- 为了注释毒力因子,我们使用毒力因子数据库和Diamond,查询和主题覆盖度为80%。
- 移动遗传元件(MGEs)是基于原始参考文献中描述的方法进行注释的(补充表S2)。
- 此外,根据Partridge等人研究原则确定了与MGE相关的ARGs和VFs。
Data content and case studies
Taxonomy and spatial distribution of pathogens
病原体的分类学与空间分布
Para_22
- 在gcPathogen中,细菌涵盖了13个门(图3A):变形菌门(51个属),厚壁菌门(23个属),放线菌门(18个属),拟杆菌门(6个属),螺旋体门(4个属),芽孢杆菌门(3个属),柔膜菌门(2个属)以及其他六个门各有一个属,包括放线菌门、拟杆菌门、衣原体门、假单胞菌门、螺旋体门和柔壁菌门。
- 同时,真菌包含五个门(图3B):子囊菌门(61个属),接合菌门(11个属),担子菌门(9个属),绿藻门(1个属)和动物寄生菌门(1个属)。
- 自2008年以来,病原体序列组装的出版数量急剧增加,这主要是由于测序技术在病原体检测中的应用日益广泛。
- 值得注意的是,鼠伤寒沙门氏菌、大肠埃希氏菌和金黄色葡萄球菌从多个国家提交的序列数量最多,表明它们分布广泛(图3C)。
- 相反,霍乱弧菌、副溶血性弧菌和嗜肺军团菌与局部爆发相关。
- 此外,鼠伤寒沙门氏菌、大肠埃希氏菌和肺炎克雷伯菌的基因组数据中注释的ARGs和MGEs数量最高。
- 观察到MGEs(包括插入序列、ICE、整合子、转座子和质粒)促进了病原菌对外源性AMR基因的摄取,特别是在肺炎克雷伯菌中。
- 另一方面,铜绿假单胞菌和鲍曼不动杆菌具有大量的ARGs,但相对较少的MGEs。
-
鲍曼不动杆菌的主要耐药机制是通过含有不同基因内容的多个耐药岛,但它们与MGEs的关联尚未得到报告。
- 图 3. gcPathogen 中细菌种类的分布。最丰富的属是 (A) 细菌中的沙门氏菌和 (B) 真菌中的酿酒酵母。 (C) 在数据量最高的前 20 种细菌病原体中,序列类型(STs)、宿主、抗生素抗性基因(ARGs)和可移动遗传元件(MGEs)的数量。还包括它们在前 20 个国家中的分布情况。
Para_23
- 最丰富的病原体在发达国家和发展中国家的流行情况显示出显著差异,这可能归因于不同的环境和抗生素使用的差异。
- 例如,嗜肺军团菌、空肠弯曲菌和结肠弯曲菌在发达国家的流行率远高于发展中国家(图 4)。
- 这种差异可能与发达国家中用于工业和生活的城市温水系统的发达有关,为嗜肺军团菌提供了更加适宜的生存环境。
- 此外,嗜肺军团菌可以污染医院的供水系统,在发达国家暴发军团病构成重大挑战。
- 相比之下,它在发展中国家的流行率相对较低。
- 结核分枝杆菌在发展中国家更为普遍,主要是因为它对大量营养不良和免疫功能低下的人群,如艾滋病患者造成了影响。
-
在缺乏新型抗结核药物的情况下,估计结核分枝杆菌在发展中国家感染了 40-80% 的免疫功能低下个体。
- 图 4. 发达国家和发展中国家最常见的 20 种细菌病原体的分布。
Case study: vibrio parahaemolyticus typing and antibiotic resistance
案例研究:副溶血性弧菌分型与抗生素耐药性
Para_24
- 快速和高分辨率的分型可以在很大程度上帮助流行病学调查以及暴发源头的识别。
- 在gcPathogen中,我们已经鉴定了1038种副溶血弧菌的序列类型(ST)。
- 其中,ST3和ST36最为普遍(图5A),它们的出现可以追溯到2000年以前,早于排名前20位中的其他ST。
- ST3几乎在所有国家都有发现,因此被归类为一种大流行克隆。
- 值得注意的是,美国、加拿大和秘鲁的分布图谱相似,但与中国和泰国的有所不同。
- 图5B显示这些ST包含22种抗性基因(ARG),对九类药物具有抗性,其中包括9种多药抗性ARG和13种单一药物抗性ARG。
-
特别地,MarR、AcrB和SoxB这三个基因使细菌对七种类型的药物产生抗性,并且在这些ST中的发生频率为100%。
- 图5. 基于gcPathogen数据分析的副溶血性弧菌案例研究。(A)来自前20位序列型的基因组数据,包括它们的序列型、时间、宿主、疾病和国家信息。绘制并展示了系统发育树。(B)这些序列型对抗生素耐药基因频率的统计以及单药和多药耐药特征。
Antibiotic resistance of pathogenic bacteria
病原细菌的抗生素耐药性
Para_25
- 抗生素抗性基因可以通过转化从环境中转移到人类病原体,导致微生物生态系统中的抗性传播、不同病原体种群间的传播,甚至是跨物种传播。
- 特定抗生素抗性基因时空传播的追踪可以促进早期检测和病原体控制。
Para_26
- 如图6所示,大多数药物类别的抗生素耐药性频率正在增加,表明存在严重的抗生素耐药性问题。
- 与其它药物相比,链霉菌素和磺胺类抗生素的耐药性仍然较低。
- 链霉菌素主要用于治疗结核病,但结核分枝杆菌中的突变基因gidB可将耐药性降低近50%,这可能是链霉菌素类抗生素耐药性频率较低的潜在原因。
-
此外,磺胺类抗生素在兽医实践中比在人类医学中使用更为频繁,磺胺类耐药性的迅速发展导致后来被青霉素取代,从而减少了其使用量。
- 图 6. 从 2000 年至 2021 年,在拥有最大病原体样本量的 20 个国家中对不同药物类别的抗性情况。还展示了不同年份、国家和宿主中的病原体移动遗传元件频率及相关的抗生素抗性基因数量。
Para_27
- 此外,抗生素耐药基因在美国和英国的普遍程度显著较高,而南非和秘鲁的数据则显示这类基因的普遍程度最低。
- 不同国家之间多样的医疗标准和用药实践促成了这些差异。
- 例如,自1978年起氨基糖苷类抗生素阿普拉米星已在英国使用,导致高度耐药性,特别是在大肠杆菌中
Mobile genetic elements of pathogenic bacteria
致病细菌的移动遗传元件
Para_28
- MGEs在细菌的水平转移中发挥着至关重要的作用,使细菌能够获得抗生素抗性和毒力特性,并促进适应性进化。
- 在从基因组数据中标注的携带ARGs的MGEs中,质粒最为普遍,而携带ARGs的整合性共轭元件(ICE)则较为罕见。
Para_29
- 从2000年到2022年,病原菌中MGE的发生频率没有显著变化,但与之相关的ARG数量增加了(图6)。
- 这一发现结合ARG年度频率的变化,突显了MGE在ARG水平转移中的重要作用。
- 值得注意的是,在排名前20位的国家中,质粒、插入序列和转座子的MGE频率高于其他类型,美国、英国和中国与这些MGE相关的ARG数量较多。
- 质粒介导的ARG水平转移被认为是人类、动物和环境中ARG传播最重要的途径。
- 此外,不同宿主类别中MGE频率分布和相关ARG数量存在显著差异。
- 与人类相关的细菌与MGE相关的ARG数量明显多于其他宿主类别,表明与人类相关的分离株经历的水平基因转移大约是非人类分离株的25倍。
Conclusion and future perspective
Para_30
- gcPathogen 利用病原体基因组测序、序列类型、流行病学、抗生素耐药性、毒力因子和可移动遗传元件的大数据,支持科学研究和公共卫生监测。
- 该数据库将定期更新,纳入来自不同来源的新兴致病微生物的数据。
- 从多种宿主和地理位置获得的病原体基因组数据量不断增长,使 gcPathogen 成为高质量的参考数据集,作为泛基因组和特征基因分析的宝贵数据源,有助于设计新的基因分型标记,实现快速准确的目标检测。
Para_31
- 目前,在连接病原学数据与传统传染病监测系统之间存在差距。
- 将病原体的丰富表型和基因信息与来自临床或疾病控制监测系统的各种感染病例相结合,将有助于探究病原体的整体特征、耐药基因的转移以及‘超级耐药’细菌的传播。
- 因此,这种结合将加强监测措施和预防活动。
- 为此,我们计划开发一个用户友好的应用程序编程接口(API),以便轻松地与内部和公共传染病监测系统进行数据连接。
- 这种整合将使数据转化为实时报告,供公共卫生专业人员决策使用,并根据综合数据提供准确的早期检测和预警。
Data availability
Para_32
- 该数据可从平台免费访问和下载,链接为 https://nmdc.cn/gcpathogen/download
Supplementary data
Para_33
- 补充数据可在 NAR 在线获取。
本文由mdnice多平台发布