在材料领域,机器学习技术经常被用于特性预测,学到一个函数能绘制出符合选择特性的分子材料。而近日哈佛大学与多伦多大学的研究者在Science上发表了一篇关于新材料设计的论文,该论文将深度生成模型引入反演设计,从而合成有机物甚至设计新型药物。
论文:Inverse molecular design using machine learning: Generative models for matter engineering
论文地址:http://science.sciencemag.org/content/361/6400/360
摘要:新材料的发现能为社会与科技发展带来巨大进步。当今环境下,全面探索潜在材料空间在计算方面非常困难。在这篇文章中,我们回顾了反演设计方法(inverse design)——一种以特定预期功能为起点发现专门材料的方法。近期人工智能领域的快速发展,特别是机器学习的子领域深度学习的发展,带来了思维转变,提出了反演分子设计的方法且快速得以利用。其中,深度生成模型被应用到了大量材料类别上:新型药物的合理设计、有机化合物合成、太阳光电与液流电池优化以及多种固态材料等。
介绍
从个性化医疗到能源生产与存储,21 世纪的许多挑战都存在一个共同主题:材料永远是解决方案的一部分。有时,这些问题的解决方案都受限于材料的物化特性,例如材料带隙(materials bandgap)关系对太阳能发电的限制。
先前,重大材料的发现都是科学家偶然间或者多次试验得到的。例如,人们观察到用硫等添加剂加热可以提高橡胶的耐用性,于是在 19 世纪从其混合物中制造了硫化橡胶。在分子层面,单个高分子链交叉结合,形成的新链在宏观力学特性上得到增强。其他值得一提的例子像聚四氟乙烯、麻醉剂、凡士林、苯胺紫、盘尼西林也都是通过这种形式得到的。此外,这些材料来自于天然的化学成分。其他潜在药物要么是在化学实验室中合成的,要么是从植物、土壤细菌或者真菌中提取出来的。例如,直到 2014 年,49% 的小分子抗癌药物都是天然化合物或者是天然化合物的衍生物。
未来,物质发现的爆炸性进展来自于所有可能的分子和固态化合物集合中未开发的区域,即化学空间。其中最大的一个分子集合——化学空间计划——已经绘制了 1664 亿个分子,至多包含 17 个重原子。其中与药理学相关的小分子,结构数量据估计约为 1060 个。考虑到从亚纳米到微观到介观(mesoscopic)的尺度层级,对化学空间的探索整体上变得复杂。因此,任何想要覆盖这一空间的全局策略看起来都无法实现。模拟为在不做实验的情况下探索这一空间提供了可能。这些分子的物化特性都由量子力学掌控,也就是可通过薛定谔方程式求解来达到精确。但在实际中,常通过损失部分准确率的近似法来减少计算时间。
尽管理论上有了巨大进步,但如今以常规方法建模分子、群集以及含缺陷的周期性固体,化学空间依然庞大无比,且需要智能导航。有鉴于此,机器学习、深度学习以及人工智能非常有潜力,因为它们的计算策略是通过经验自动改进的。在材料领域,机器学习技术经常被用于特性预测,学到一个函数能绘制出符合选择特性的分子材料。深度生成模型是深度学习方法的一种,能以非线性的方式建模结构与特征以及与它们相关的潜在可能性分布。通过利用大量数据中的模式,这些模型能提取表现分子特性的平均的、显著的特征。
反演设计是发现复杂材料过程的一部分。从在实验室发现到形成商业产品,新技术的部署周期一般是 15-20 年。依照惯例,这一过程(下图 1)涉及到以下步骤:(i) 生成全新的或者改进材料概念并模拟其潜在适用性;(ii) 合成材料;(iii) 把材料组合成设备或者系统; (iv) 表现并测量其预期特性。这一周期生成反馈,不断重复、改进、精炼。每个步骤都可能花费数年。
图 1:材料发现范式的对比图解。当前范式如左图所示,用有机液流电池作为示例。闭环范式如右图所示。完成这一闭环需要融合反演设计、智能软件、AI/ML、嵌入式系统和机器人,组成一个融合的生态系统。图:K. HOLOSKI 编辑。
在物质工程的时代,科学家们试图加速这一闭环,减少每一步所需要的时间。最终目标是兼顾提出、创造、特征化新材料,每部分构成都能同时传送、接收数据。这一过程被称为「闭环」(closing the loop),且反演设计是重要的组成。
反演设计
图 2:不同分子设计方法图解。反演设计始于期望分子特性,终于化学空间,这不同于从化学空间到分子特性的直接方法。图:K. HOLOSKI 编辑。
分子表征
图 3:应用于 AQDS 分子的不同类型分子表征,这种分子被用于构建有机液流电池。从最上面顺时针来看:(1)量化分子环境的出现和缺失的指纹向量;(2)使用简化文本编码来描述化学空间结构的 SMILES 字符串;(3)可建模模型相互作用或对称性的势能函数;(4)包含原子和键权重的图;(5)库仑矩阵;(6)分子键和分子碎片的集合;(7)原子及原子电荷的 3D 几何图形;(8)电子密度。图:K. HOLOSKI 编辑。
图 4:生成模型中几种架构的示意图。RNN 用于序列生成。VAE 展示的是半监督变体,由分子(x)和属性(y)联合训练。Z 表示潜在空间,z 表示潜在向量。在 GAN 设定中,噪声最终通过对抗训练转换成分子结构。强化学习(RL)展示了 MTCS 在 SMILES 补全任务时获得任意奖励的策略梯度。图的右下方是混合结构(如 AAE,对抗自编码器)及 ORGAN,表示 GAN 和 RL。图:K. HOLOSKI 编辑。
展望
反演设计是加速设计物质所需的复杂框架的重要组成。反演设计的工具(尤其是那些从机器学习领域发展而来的工具)近年来发展迅速,并成功将化学空间纳入概率数据驱动模型中。生成模型可以生成大量的候选分子,并且这些候选分子的物理实现将需要自动化的高吞吐量工程来验证生成方法。社区目前并没有开发出足够多的成功的物质设计闭环方法。理论和实验之间壁垒的倒塌将为我们带来 AI 驱动的自动化实验设备。
反演设计工具与主动学习方法(例如贝叶斯优化)的结合可以让模型在探索化学空间时实现自适应,这将使得在高度不确定性的区域扩展模型成为可能,并允许发现包含所需特性的分子空间区域(作为组成的函数)。目标函数空间的主动学习也许能帮助我们更好地理解在开展机器学习过程中对最佳奖励的搜索。
如我们所见,机器学习方法论的核心是分子的表征;编码相关物理过程的表征将具有更好的泛化能力。尽管我们取得了可观的进展,但仍存在很多需要完成的工作。分子的图和分层表征还需要进一步研究。
将机器学习作为一种新的知识支柱集成到化学、生化、医学和材料科学领域中,研究者们就能更迅速地采用本研究中总结出的方法。