编辑丨&
小分子机器学习旨在从分子结构中预测化学或生物特性,其应用包括毒性预测、配体结合和药代动力学等。
最近的一个趋势是开发避免显式领域知识的端到端模型。这些模型假设训练和评估数据中没有覆盖率偏差,这意味着数据代表了真实分布。
来自德国的一支联合研究团队探索了大规模数据集对已知生物分子结构空间的覆盖程度,并提出了一种基于求解最大公共边子图(MCES)问题的距离度量,该问题与化学相似性非常吻合。
他们的研究结果以「Coverage bias in small molecule machine learning」为题,于 2025 年 1 月 9 日刊登于《Nature Communications》。
研究结果表明,许多广泛使用的数据集缺乏生物分子结构的统一覆盖,这限制了在其上训练的模型的预测能力。为此,他们提出了两种额外的方法来评估训练数据集是否与已知的分子分布不同,从而可能指导未来的数据集创建以提高模型性能。
数据集的介绍
几十年来,机器学习已成功应用于生物化学和化学领域。最近的趋势是开发端到端模型,避免通过归纳偏差显式整合领域知识。不应在其适用范围之外使用模型这一事实在化学计量学界已经广为人知。在空间偏差中,人们使用来自某个地理位置的测试数据,但也对模型在其他位置的性能做出声明。
而在训练用于预测分子特性的大规模端到端模型时,这个问题通常会被忽略。目前,数据集内的泛化问题已得到广泛研究。对于小分子,广泛使用的支架分割可确保对训练数据中未看到的支架进行评估。虽然这么做并不能解释分子性质分布的差异。
要考虑小分子的训练数据分布,需要某种方法来估计分子结构之间的相似性或差异性。虽然可以采用分子指纹以快速处理大型数据集,但是基于分子指纹的测量会表现出不良特征。而基于最大公共子图的方法虽然可以更好的捕捉结构性相似的化学直觉,但是计算过程过于麻烦。
团队展示了如何检查分子结构数据集是否覆盖了生物学感兴趣的小分子结构。自然产物相似性的度量可以很好地指示数据集中分子结构的分布是否与生物分子结构的分布有很大差异。
人类目前尚未真正了解具有生物学意义的小分子宇宙,团队提出了这点,因为人类还有未曾发现的小分子。虽然目前作为代理的生物分子结构库还不够完整,但是对适用域的限制已经显现出来。
对于给定的一对分子结构,团队采用最大公共边子图计算了距离。除此之外,他们还估计了所有距离的下限以加快计算速度。均匀流形近似和投影(UMAP)在他们绘制可视化生物分子结构的世界的二维图里被使用。
为了避免运行时间的增加和杂乱的绘图,研究团队对 20,000 个生物分子结构进行了统一二次抽样。他们观察到,子采样确实可能会改变 UMAP 嵌入的一般布局,但一般布局通常出奇地相似。
某些分子结构和化合物类别,特别是某些脂质类别,会导致 UMAP 嵌入中出现异常值簇。团队表示必须要高度谨慎地从 2 维 UMAP 嵌入中推断数据的结构。
在公共数据集中,团队观察到,可用的分子结构子集通常远非统一。他们认为,大多数公共数据集也不具有代表性,这意味着数据集中完全缺少大面积的生物分子结构。实际上,一些数据集集中在图中的一个或几个区域。
对实例进行验证
团队考虑了 10 个经常用于训练机器学习模型的公共分子结构数据集。他们研究了每个数据集中的分子结构在多大程度上是生物分子结构的统一子集,并算了所有分子结构的近视 MCES 距离。
首先考虑 ILP 运行时间对确切 MCES 距离的依赖性,其次评估边界和精确计算的组合如何产生有利的运行时间。为了通过子采样排除偏差,团队使用 19,994 个生物分子结构中的所有对重复了上述分析。最后对计算边界的误差进行分析。
与设计的实现类似,计算边界的结果可用于在未执行精确计算时近似相似性。为了准确计算更多实例,相似性阈值被降低到 0.5。
除了均匀的子样本外,分子结构数据集还应表现出另一个特征,以便它代表生物分子结构的整个空间:即生物分子所属的所有化合物类别也应存在于训练数据中。
如果数据集完全遗漏了特定化合物类别的分子结构,那么根据数据训练的机器学习模型可能会显示对该化合物类别的预测不佳。如果特定化合物类的样本非常少,则情况也是如此。
在研究中,团队专注于生物分子结构的机器学习模型。因此,他们想忽略基本上不包含生物分子结构的化合物类别。如果没有或很少有生物分子属于某个化合物类别,那么分子结构数据集也不包含该化合物类别的分子结构或仅包含少量分子结构也就不足为奇。
UMAP 嵌入引入了一定程度的任意性,允许在没有化合物类的束缚的情况下发现问题。相比之下,化合物类分析无法检测训练数据的所有缺点。
潜在陷阱与改进
包含分子结构实验数据的机器学习数据集通常与生物分子结构的统一子集有很大不同。更令人担忧的是,对于大多数数据集来说,生物分子结构宇宙的大部分区域仍然是完全空白的。
由于机器学习在这些领域的重要性日益增加,因此他们发布了几项关于化学和生命科学领域良好机器学习实践的指南。对于在小分子上训练的大型模型,建议将训练数据的分布分析纳入这些建议中。否则,使用更复杂的机器学习模型进行性能改进在实践中可能不会有任何有效结果。
即使数据集没有显示任何特性,但这也并不意味着机器学习可以全权委托。他们所采用的方法可能发现分子结构分布奇特且具有潜在危险的数据集。根据以往的经验,他们警告读者,即使在这里,分子结构的分布也可能导致经过训练的模型出现意外行为和违反直觉的评估结果。
团队推测,MCES 边界的 C++ 实现可以达到与 RDKit 的 RASCAL 实现相当的运行时间,特别是 MCES 距离可以用作机器学习的一部分。可以借助它测量分子结构之间的绝对距离,也可以对其进行修改以考虑子结构关系。
原文链接:https://www.nature.com/articles/s41467-024-55462-w