近期发布的gcPathogen是一个整合了人类相关病原微生物的综合类网站。该网站有几个有特点:
- 该网站内的病原微生物来自一些权威官方。比如WHO、中国疾控中心、美国疾控中心等。
- 该网站数据库中的微生物综合信息(meta information)和基因组经过人工的二次审核,质量较高。
- 该网站提供了与微生物meta information 可交互的可视化界面,能够更加直观的查看病原微生物在不同时间、不同地区、不同宿主之间的分布情况,以及与之相关的传染病,并提供了这些信息相关的论文依据。同时提供了基因组序列的下载。
- 该网站还提供病原微生物相关的毒力基因、MEG可移动遗传元件、耐药基因信息。而且能够将其以query index去展示在不同维度(地区、物种、宿主,时间)下的分布以及ARGs和MEG之间的相关关系。
- 该网站还提供一些较为常用微生物在线分析流程,比如:注释、鉴定、MLST、gcMLST等。
当然,就我目前的使用体验而言,也认为其可能存在着一些缺陷:
- 在线分析流程速度过慢,应该不是我上传基因组大小的问题(仅2.3M)。
- 注意!仅仅包含与人类病原(human pathogens)相关的数据,对于其余非致病的微生物,是不包含在内的。当然,我也不见得它已经包含了所有的human pathogens。因此,若是想仅凭该网站得到比较权威的结论,实现“one - stop”的体验,应当还是要有谨慎的态度。
文章发表时间:18 October 2023
原文链接:gcPathogen: a comprehensive genomic resource of human pathogens for public health
Usage guide:https://nmdc.cn/gcpathogen/static/html/User%20Manual%20for%20Global%20Catalogue%20of%20Pathogens.pdf
Highlights:
Facilitate rapid and accurate pathogen analysis, epidemiological exploration and monitoring of antibiotic resistance features and virulence factors.
Pathogen inventory of human pathogens from reputable source. Data(sequence assemblies) of this inventory were retrieved from NCBI.
-
The database in gcPathogen underwent rigorous QC
- Sequence assemblies > 0.95 completeness and < 0.05 contamination with checkM
- Same speices:ANI value > 0.95 with reference seq from NCBI's Refseq by FastANI
- metadata information were manually categorized
可以看到,database还是具有一个相当高的质量。
-
数据库包含:
- 497 个细菌物种 == 986 044 个株系 == 1 164 974 组装基因组
- 265 个真菌物种 == 4319 个株系 == 4794 组装基因组
- 222 个病毒物种 == 13 687 个毒株 == 89 965 组装基因组
- 159 个寄生虫物种 == 986 044 个株系 == 646 组装基因组
Multiple online tools for rapid genomic analyses.
1.‘pathogen identification’ tools:16S,ANI
2.‘genomic annotation pipeline’ :gcType database
3.‘MLST’ pipeline determines STs:MLST,PubMLST
4.‘cgMLST’ pipeline:chewBBACA
简单使用
你可以检索某一类病原,比如:这里我以“Salmonella enterica”为例。当然你也可以按“Genome”、“ARGs”、“VFs”为query index进行检索。
在以Taxa检索的情况下,你又可以按照“总览”、“序列类型”、“抗性基因”、“毒力基因”、“可移动遗传元件”、“相关paper”进行展开.
Result of *Salmonella enterica* search
在Salmonella enterica的Overview下,大概罗列了的Taxonomy ID、Complete taxonomic lineage、Reference Genome、Data Volume、Strains、Host、Related diseases、ARGs、VFs等信息。
Sequencing information and Epidemiological information
Temporal and Spatial Distribution Map of Pathogen
Genome List
Salmonella enterica下的基因组列表,你可以一次性将所有的基因组全部下载下来,也可以下载某几个assembly genome。
在Sequencing typing (菌株分型)中,是将Salmonella enterica依据不同的分型展示,展示的信息也是先当丰富的。
Sequencing typing
其中的“Knowledge Graph”挺有意思的,它罗列了Salmonella enterica下相关的论文研究。
Knowledge Graph
其余的就不细致地展开说明了。需要提一点的就是gcPathogen虽然整合了一些在线分析流程,但实际使用感觉分析地有点慢,虽然它给了我三十个线程。
补充说明:
抗生素抗性基因(ARG) 的移动遗传元件(MGE):
- Antibiotic resistance genes can be transferred from the environment to human pathogens through transformation, leading to resistance dissemination in microbial ecosystems, between different pathogen populations, and even across species。细菌中携带ARGs的质粒、整合子以及转座子等可在菌株间发生水平基因转移,菌株死亡后携带ARGs的DNA在环境中长期存在。
- MGEs play a crucial role in bacterial horizontal transfer, enabling the acquisition of antibiotic resistance and virulence traits and facilitating adaptive evolution .是一种可以在基因组中移动并从一个物种或复制子转移到另一个物种或复制子的遗传物质。 MGE 存在于所有生物体中.包括:转座子、质粒、噬菌体原件、Ⅱ型内含子。
Resistance to different drug classes in 20 countries with the largest pathogen samples from 2000 to 2021. Pathogenic mobile genetic element frequencies and associated antibiotic resistance gene amounts in different years, countries and hosts are also shown.