Nat Mac Int | 机器学习液相色谱-串联质谱提升小分子识别率
原创 图灵基因 图灵基因 2023-01-04 11:43 发表于江苏
收录于合集#前沿生物大数据分析
阿尔托大学(Aalto University)和卢森堡大学(University of Luxembourg)的研究人员报告称,他们开发了一种新的机器学习模型,将有助于识别小分子,并将其应用于医学、药物发现和环境化学。
他们的研究结果“Joint structural annotation of small molecules using liquid chromatography retention order and tandem mass spectrometry data”,发表在《Nature Machine Intelligence》杂志上。
研究人员写道:“尽管在过去十年中预测方法和工具取得了快速进展,但生物样本中小分子的结构注释仍然是非靶向代谢组学的一个关键瓶颈。液相色谱-串联质谱是最广泛使用的分析平台之一,可以检测样本中的数千个分子,其中绝大多数即使使用最好的方法也无法识别。在这里,我们介绍了LC-MS2Struct,这是一种用于液相色谱-串联质谱(LC-MS2)测量产生的小分子数据结构注释的机器学习框架。”
阿尔托大学计算机科学教授Juho Rousu博士解释道:“如果不对候选分子做一些额外的假设,即使是最好的方法也不能识别样本中超过40%的分子。”
这种新方法可能能够识别代谢紊乱,如糖尿病,甚至癌症。
阿尔托大学机器学习与生物信息学博士生Eric Bach说:“我们的研究表明,虽然绝对保留时间可能会有所不同,但不同实验室的测量结果表明,保留顺序是稳定的。这使我们能够首次合并所有关于代谢物的公开数据,并将其输入到我们的机器学习模型中。”
卢森堡大学卢森堡系统生物医学中心(LCSB)副教授Emma Schymanski博士表示:“事实上,使用立体化学提高了识别性能,这对所有代谢物识别方法的开发人员来说都是一个启示。这种方法也可以用来帮助识别和追踪环境中的微污染物,或表征植物细胞中的新代谢物。”