编辑 | ScienceAI
科学研究的核心之一是发现能够描述自然现象的规律性方程。这些方程不仅能加深我们对自然的理解,还能为复杂问题的解决提供明确指导。
然而,许多领域,尤其是材料和化学等依赖实验的学科,因为变量众多、过程复杂,传统理论推导往往难以建立明确的关系。
近期,来自北京大学深圳研究生院、宁波东方理工大学(暂名)等机构的研究团队结合自动化实验平台与人工智能算法,首次成功从实验数据中挖掘出了物质分离过程中色谱关系的显式数学公式。
该研究提出了一种知识发现技术、建立了可解释的公式,将专家经验(Chemist’s experience)转化为「人工智能经验」(AI experience),为色谱分离实验条件的确定与优化提供了理论支持。相关成果于2025年1月19日发表在《自然·通讯》(Nature Communications)上。
图 1:相关工作于发表于 Nature Communications
挑战与背景:从专家经验到「AI经验」
如果想要构建真正的「AI科学家」,必须实现对实验数据的自动化分析与显式公式的推导,从而有效推动对科学问题的认知与探索。然而,要达成这一目标尚面临诸多科学挑战:
- 其一、如何对多变量、多尺度的实验数据进行通用化建模,以准确刻画潜在的高维映射关系;
- 其二、不同实验来源的数据在采样方式、环境条件等方面存在差异,如何实现跨实验数据的精准对齐与融合;
- 其三,如何提高可解释性(Interpretability),为研究者提供透明可信的推理过程,以帮助他们深入理解背后的科学机制,而不仅仅是停留在「黑箱」式预测上。
在此背景下,该研究选取化学分离领域中常见的薄层色谱(TLC)和柱色谱(CC)作为研究对象,为上述问题提供一个具体的落脚点。
TLC 和 CC 同样基于色谱原理(Chromatography)开展分析与分离,广泛应用于合成化学实验室。以柱色谱为例,实验时通常先通过 TLC 测定混合物的保留因子(RF 值),依据该值评估组分与流动相的相对极性,并据此实时调整流动相的组成与比例,确保目标化合物的 RF 值大致在 0.2 到 0.3 之间。
尽管这一经验性做法在实践中行之有效,却难以通过传统分析方法对其背后的多尺度耦合机理进行系统阐释,存在「知其然而不知其所以然」的现象,阻碍了研究者对色谱分离化学本质的深入理解。
因此,若能引入人工智能手段,从大量实验数据中自动挖掘并总结出可解释的经验方程,就有望将这类依赖「经验+试错」的方法体系化、公式化,进而提高实验效率和可靠性。
图 2:色谱分离的专家经验与数据驱动的方程挖掘
AI 驱动的知识发现
为了解决上述问题,研究团队设计了一套完整的数据驱动框架,借助自动化实验平台和人工智能技术,从实验数据中系统性地挖掘化学分离的规律性方程。
首先,他们开发了高通量自动化 TLC 和 CC 实验平台,通过精准控制实验条件生成大规模数据集。该平台包括样品加载、溶剂配制、色谱分离、吸光度检测和结果分析的全流程自动化,大幅减少了人工干预可能带来的误差。
在数据获取方面,研究团队在自动化平台上测量了 192 种化合物的RF值,并在不同实验条件下记录了 5984 条柱色谱数据点。这些数据涵盖了化合物的分子结构、物理化学性质以及实验设置参数,从而为机器学习模型的构建提供了充分支持。
图 3:高通量自动化 TLC 和 CC 实验平台
为了从这些数据中提取规律,还需要消除不同实验来源的数据在采样方式、环境条件等方面存在的差异。研究团队引入了代理模型(surrogate model),利用神经网络将 TLC 和 CC 数据点关联起来,实现跨实验数据的精准对齐与融合。这些代理模型通过复杂的高维特征建模,预测了未观察到的实验数据。
图 4:构建代理模型实现跨实验数据的精准对齐与融合
此外,研究团队使用符号回归(symbolic regression)技术,从模型预测中提取了显式数学公式,并采用树结构以表征化合物性质的影响,提高可解释性。这些公式揭示了RF值与柱层析保留体积之间的反比例关系,并通过统计验证了其高拟合精度(R² 值超过 0.88)。
图 5:柱色谱的保留时间与薄层色谱的 RF 值之间关系的公式识别与预测效果
与传统机器学习模型不同的是,这些公式具备高度的可解释性,能够直观地展示实验变量之间的关系。例如,研究发现,RF 值与保留体积的关系不仅受溶剂比例的影响,还与化合物的分子结构紧密相关。这种定量化的规律性公式为化学家优化实验条件提供了科学依据。
图 6:表征化合物影响的柱层析因子的回归树模型的可视化
此外,研究团队进一步分析了这些公式的推广性与泛化性,成功地将它们应用于不同规格的色谱柱。例如,通过迁移学习校正公式系数,可以将适用于 4 克色谱柱的公式推广至 25 克柱和串联柱。这种推广不仅验证了公式的通用性,还表明AI驱动的知识发现可以适应不同实验条件。
应用价值与未来展望
这项研究的直接应用价值在于显著提升了化学分离实验的效率和可靠性,以化学中常用的 TLC 和 CC 实验为例,验证了利用人工智能方法从实验数据中提取显式方程的可行性。
传统上,研究人员需要通过多次试错来确定最佳分离条件,而这种数据驱动的知识发现方法则可以通过简单的薄层色谱实验预测柱层析的分离效果,从而减少实验次数和溶剂消耗。特别是在处理复杂混合物时,AI 发现的显式公式为快速判断分离可能性提供了强有力的工具。
更广泛地看,这项研究展示了人工智能在科学发现中的巨大潜力。与传统理论推导不同,知识发现框架通过大数据分析和机器学习,从实验数据中自动提取规律性公式。这种方法不仅可以揭示化学中的多尺度耦合机制,还可以推广到其他科学领域。
例如,在生物学中,它可以用于分析基因调控网络的动态关系;在物理学中,它可以帮助构建复杂流体力学的数学模型。通过将人工智能技术融入科学研究,我们有望加速科学知识的生成过程,推动各领域的跨学科创新。
论文链接:https://www.nature.com/articles/s41467-025-56136-x