昆明植物所发表机器学习辅助天然产物结构解析的综述
天然产物(natural products, NPs)的结构鉴定是天然药物研发中的重要环节之一。在NPs的结构研究中,质谱(mass spectrometry, MS)和核磁共振(nuclear magnetic resonance, NMR)技术被认为是最具深度洞察力的工具。化学家们依靠智慧和经验通过分析MS和NMR的信息构建化学结构;而计算机辅助结构解析(computer-assisted structure elucidation,CASE)的出现,极大加速了NPs结构解析的进程。然而,CASE方法通常遵循严格的编程规则,缺乏人类智能化的适应性和认知功能,依然无法灵活适用于NPs的所有结构解析场景。近年来兴起的机器学习(machine learning, ML)和深度学习(deep learning, DL)方法被应用于辅助MS和NMR图谱的解析,并形成了一系列有价值的研究成果。
中国科学院昆明植物研究所邱明华研究团队近期在天然产物研究领域国际顶级期刊Natural Product Reports(2023, 40, 1735 - 1753)上发表了题为Machine learning-assisted structure annotation of natural products based on MS and NMR data的综述论文,系统总结了ML辅助MS和NMR数据分析以确定NPs化学结构的最新进展,并提出机器学习辅助结构解析(machine learning-assisted structure elucidation, MLASE)这一概念,将其列为CASE的分支。
该论文总结讨论了依赖于数据库搜索的基于ML的MS/MS分析方法,其中涉及基于ML算法的MS/MS图谱相似性计算、MS/MS图谱预测和分子指纹生成方案。并基于重要研究案例系统概括分析了非数据库依赖的ML算法辅助MS/MS结构注释的基本思路和策略。还从化学位移预测、官能团识别、结构分类和量子化学计算等方面,通过分析结构研究的案例,讨论了ML算法辅助基于NMR的NPs构建分子结构的方法。该论文对于客观认识人工智能在天然药物化学研究中的应用前景及面临的挑战具有积极意义,也为未来深度融合CASE和MLASE方法以加速天然药物研究提供了有益的思考。
昆明植物所胡贵林博士为论文第一作者,邱明华研究员为通讯作者。研究工作得到国家自然科学基金项目(U1902206)和云南省科技入滇项目计划(202003AD150006)项目资金的资助。
图1 ML在辅助基于MS和NMR的NPs结构解析中的应用
图2 ML在辅助数据库依赖型MS/MS鉴定中的应用
图3 ML辅助NMR图谱分析鉴定NPs类别