摘要:PlastidHub是一个基于云的质体基因组集成化分析平台,开发了创新性工具进行植物分子系统学和比较基因组学分析,能够有效解决质体基因组在注释和分析过程中存在的问题,对于推动植物分类、物种鉴定、系统进化与多样性保护等领域发展有广泛应用价值。
质体基因组是研究植物系统发育与进化不可或缺的分子资源。尽管质体基因组大小远小于核基因组,但其序列的精准高效注释与利用仍存在挑战。主要技术问题包括基因组结构的标准化、注释质量的评估、目标序列的准确提取、序列比对前后的流程化处理、分子标记的自动筛选、基因组在基因水平上的可视化比较等。因此,亟需开发一套涵盖质体基因组注释、系统发育重建以及比较基因组学分析的高效流程,用于对质体基因组序列进行快速准确分析,以推动这一重要细胞器基因组在多学科中的应用。
山东师范大学生命科学学院植物资源分类与系统进化团队联合中国科学院昆明植物研究所中国西南野生生物种质资源库植物分子系统发育与进化团队开发了一个集成化的质体系统发育基因组学与比较基因组学分析平台——PlastidHub(网站地址:https://www.plastidhub.cn)。该平台具有云端网络应用特性,用户无需安装、更新或维护工具;提供详细帮助文档(含使用指南、测试案例)、静态弹窗提示框及参数输入异常时的动态警告提示;支持所有工具的批量处理能力;能生成可供二次使用的中间结果;在文件上传与下载之间构建了简易操作的任务流。PlastidHub平台的突出特点是基于任务关联的用户界面设计(图1),该技术创新使得不具备专业计算背景的研究人员也能高效完成质体基因组分析。
PlastidHub平台创新的核心功能包括以下6个方面(图2-图7):(1)四分体结构的一致性标准化;(2)注释灵活性与一致性的提升;(3)注释完整度的定量化评估;(4)目标序列的准确提取;(5)分子标记的自动化筛选;(6)结构变异与注释完整性在基因水平上的可视化比较。
四分体结构标准化工具Quadripartition具备高的灵活性和一致性(图2)。工具允许将IRb和IRa设置为完全(100%)或近乎(99%)相同,允许手动调整最小IR长度(如≥1000 bp或≥100 bp),允许对整个质体基因组序列或SSC序列进行反向互补处理或不处理,并能输出标准化的质体基因组序列以及LSC、IRb、SSC和IRa的坐标与序列。对已公布的14,569个质体基因组的测试发现,10,218个(准确率70.1%)具有正确的四分体结构,而4,351个的结构可能存在错误。对来自于被子植物48个目53个物种的质体基因组的测试结果表明,PlastidHub平台的Quadripartition工具能一致性地容忍IRb与IRa之间的序列差异,而NOVOWrap中的validate.py工具在IR识别上存在不一致性,且容差阈值不明确。此外,Quadripartition工具还提供了log文档来记录IRb和IRa不一致的原因,辅助用户进一步确认。
质体基因组注释工具PGA v.2.0是PGA v.1.0的升级版,增加了两个灵活性的参数:用户既可以选择注释进化遗迹(假基因或冗余基因)和/或连接rps12基因的外显子,也可以选择不注释进化遗迹和/或不连接rps12基因的外显子(图3)。在发布PGA v.1.0的文章中已经测试了PGA工具相较于GeSeq工具的注释准确性,而本研究着重测试注释工具的灵活性和一致性,并且还测试了在注释反式剪接基因rps12时的准确性(图3)。关于灵活性,在系统发育研究中,本研究建议排除冗余基因/假基因的注释,以尽量减少比对误差对系统发育准确性的影响。在比较基因组学研究中,我们建议考虑注释冗余基因/假基因,因为冗余基因/假基因是研究宽松选择压下的功能基因退化的主要对象。
PGA v.2.0具有高的注释一致性,在13,731个质体基因组的测试中,有13,119个(命中率95.5%)注释了rps12,而13,119个中有12,845个(连接精确性97.9%)注释了全长rps12,剩下的274条序列只注释了rps12的一个外显子。这些结果证实了PGA v.2.0高的一致性——即便使用被子植物特异性参考无油樟质体基因组序列来注释整个被子植物质体基因组,该工具仍能实现rps12基因的高成功率和准确性注释。对来自于被子植物48个目53个物种的质体基因组的测试结果表明,与CPGAVAS2相比,PGA v.2.0和GeSeq对rps12基因的注释精确性最高。因此,本研究推荐使用PGA v.2.0和GeSeq进行可靠的rps12基因注释,并优先使用参考基因组引导的分析流程以最大程度减小误差。
此外,PGA v2.0具有高的注释效率,处理每个质体基因组仅需10秒,使其在大规模批量注释中极具优势,而GeSeq和CPGAVAS2分别需要大约2分钟和大约20分钟(对53个被子植物的质体基因组进行了注释测试)。PGA v.2.0的这一高效性使得用户能够快速获得准确的rps12注释结果。
本研究新开发了质体基因组定量化评估工具Assessment,提出了两种定量方法来评估质体基因组的注释质量:基因数量完整性和基因长度准确性(图4)。以被子植物无油樟的质体基因组为参考,评估了蔷薇科缫丝花的注释质量。对于基因数量评估,基因的注释完整性可以通过被注释的、缺失的、冗余的基因的数量、百分比以及基因名字来判断。对于基因长度评估,目标基因与参考基因之间的长度差异按大小排序,可以检查长度差异最大(或大于指定阈值)的基因。这些工具使用户能够快速通过识别缺失/边界不清的基因和冗余的假阳性结果来进一步优化基因注释,从而确保获得高质量的质体基因组注释结果。
本研究评估了新开发的质体基因组目标序列提取工具Extraction提取目标序列的准确性(图5)。由于质体基因组具有环状结构和多样化的基因类型,准确提取所有目标序列并非易事。本研究最新开发的提取工具支持多种基因提取模式,包括含内含子或不含内含子的典型基因及特定嵌套基因;反式剪接基因;未跨越或跨越环状质体基因组首尾连接位置的基因。该工具不仅可提取含内含子的蛋白编码基因及蛋白编码基因之间的序列,还能提取含内含子的基因及其基因间隔区;不仅能提取连接的或未连接的蛋白编码区和tRNAs编码序列,也能提取非编码序列。
本研究使用53个被子植物质体基因组评估了Extraction工具与PhyloSuite软件中的“Extract GenBank file”(EGBF)工具提取的序列的数量和精确性。结果表明,Extraction工具提取的跨越首尾连接位置的trnH-GUG基因是完整的序列,而EGBF工具不能将trnH-GUG基因的两段序列进行连接;EGBF工具提取未连接外显子的rps12基因时不能输出完整的rps12序列,而Extraction工具不管rps12基因的外显子连接与否都能输出完整的rps12序列;在提取非编码序列时,EGBF不能提取到未标注intron的内含子序列,并且不能很好地处理嵌套基因matK-trnK-UUU,导致提取的非编码序列数量不足,而Extraction工具能获得完整的非编码区数量。容易忽略的一点就是,EGBF提取序列时需要GenBank文件中的基因遵循物理顺序,而Extraction工具解决了这一限制,能够同时兼容有序和无序的基因顺序。另外,被广泛使用的商业平台Geneious缺乏提取基因间隔区或非编码序列的功能。这些结果表明,PlastidHub平台的Extraction工具能够准确高效地获取质体基因组中的常规及特殊的编码/非编码序列,是目前最有效的工具。
本研究开发了全新的分子标记自动化筛选工具Barcoding(图6)。分子标记广泛应用于物种鉴定、居群遗传、谱系地理、保护遗传、生物多样性研究。该工具不依赖第三方工具,既能批量计算变异位点和简约性信息位点的数量和百分比,又能提取比对矩阵中的变异位点、简约性信息位点以及它们的位置信息,也能根据百分比将比对矩阵进行排序,还能将比对矩阵长度整合为分子标记筛选的一个指标来为引物设计服务。
关于微共线性结构变异比较,本研究开发了全新的结构变异与注释完整性在基因水平上的可视化比较工具Gene Homology(图7)。该工具不仅能识别结构变异,如倒位、易位和重复,还能通过统计基因丢失/获得情况来量化注释完整度。据我们所知,这是首款实现基因级别质体基因组两两比较可视化的工具,为微共线性结构变异分析提供了前所未有的分辨率。该工具填补了质体基因组结构变异比较领域的一个空白,具有广泛的实用价值。
另外,PlastidHub平台上提供了序列提交工具Submission和可视化工具Visualization,能够帮助用户批量化生成可以提交到NCBI数据库的格式文件以及生成质体基因组物理图谱图片文件。作为系统发育基因组学分析平台,PlastidHub还提供了序列比对前后的流程化处理工具集:Pre-Alignment、(Post)-Alignment、Phylogeny,通过开发的多个个性化新工具辅助用户进行高效的序列比对和系统树构建。
PlastidHub平台凭借其高性能并发计算架构与弹性扩展设计,突破了传统分析工具的技术门槛(图8)。这一新平台有望被植物学家和进化生物学家广泛应用,在推动植物质体系统发育基因组学与比较基因组学研究中发挥重要作用。
以上成果以“PlastidHub: An integrated analysis platform for plastid phylogenomics and comparative genomics” (https://www.sciencedirect.com/science/article/pii/S2468265925000915)为题发表在中国科学院一区期刊《Plant Diversity》上。山东师范大学生命科学学院博士研究生张娜娜与美国史密森尼自然历史博物馆、美国农业部动植物卫生检验局国家植物学家Gregory W. Stull为并列第一作者,山东师范大学曲小健副教授、樊守金教授与中国科学院昆明植物研究所伊廷双研究员为共同通讯作者,山东师范大学张学杰副教授参与该工作。该项研究得到山东省自然科学基金(ZR2020QC022)、中国科技基础资源调查计划(2019FY100900)、云南省基础研究重大项目(202401BC070001)、云南省“兴滇英才支持计划”云岭学者项目、中国科学院昆明植物研究所中国西南野生生物种质资源库“交叉合作团队”开放研究项目资助。