Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

凯霞作者

中科大江俊:开发有大脑的「机器化学家」,赋能科学研究

6月2日,在由北京智源人工智能研究院主办的2021北京智源大会《科学智能》专题论坛上。中国科学技术大学化学物理系江俊教授作了题为「分子光谱与材料构效关系的机器学习研究」的演讲。
演讲主旨:
谱学结合AI,探索复杂体系科学规律的利器:预测难以直接测量的物理量、实时反演结构化演化和构效关系。
利用机器破解复杂系统的高维关联,从基于量子力学的大数据中提升理论认知。
提供重要科学研究(生命医学、分子合成机器人、材料逆向设计、星际化学测量)的指导性模型与工具。

谱学结合AI,探索科学规律的利器
光谱,本质上是物质对光子的散射。早在1704年,牛顿的《光学》中提到:「若要了解物质内部的结构情况,只要看其光谱就可以了。」所以,我们只要看光子遇到不同物质的散射行为,就可以推测出其结构,甚至了解其功能。
光谱成为人类探索科学规律的利器。1913年,玻尔发表《论原子结构与分子结构》,通过解读光谱,提出氢原子模型,奠定了量子理论基础。
事实上,量子力学的理论大厦奠基都离不开谱学数据分析。那么,量子力学的理论大厦奠基建立100多年之后,我们是否可以真正有效利用这个底层规则的理解呢?答案并不乐观。量子力学的简单模型无法破解化学世界的高维关联。
需要更有效的模型描述复杂对象的构效关系。狄拉克说过:「对物理化学问题作数学求解的基本规则已经完全清楚,苦难在于应用基本规则的方法过于复杂而无法求解!」对于化学问题,需要大量的数据,但往往缺乏数据,那么就需要借助机器智能。

图片

大家知道AlphaFold 2就是借助于机器学习预测蛋白质折叠结构,但我们发现它并不是真正解决问题,AlphaFold 2不涉及折叠机制,而是从已知的结构数据中学习关联性,蛋白质序列如何决定折叠结构的「原因/道理」,仍然是个黑匣子!再到合成机器人,比纯人工操作快1,000倍,每天可无休止工作,这是一个很有希望的方向,但缺乏「大脑」。作者也承认:「没有利用已有的化学知识,组分都具有相同的初始数量,也就是没有物理模型,没有科学假设,没有计算大脑。」事实上,对于一个真正有用的化学/合成反应来说,我们可能会有20到30步,那么这样一个10的30次方的高效空间,即使有机器人还是无法解决问题。
开发「机器化学家」
针对以上问题,上个月,中国科学技术大学研究人员提出「机器化学家」这个概念。江俊表示:「我从鄂维南院士提出的『AI for Science——从理论模型得到可靠的数据,再从数据得到有效的模型』得到了启示,修改了我之前的思路,并拿到了项目。」「机器化学家」将帮助人类科学家突破思维局限,从融合了底层规则的数据中,学习建立有效的复杂模型,指导化学实践。

图片

可靠数据集、知识图谱
首先,要得到大量可靠的数据。得到可靠的数据必须依赖底层规则去建立可靠的数据集,最后得到知识图谱。
在大数据时代,数据可靠性是关键。当前数据库量很大,但数据来源太多:良莠不齐、碎片化、标准不统一、格式不一致。在预测时会发现很多问题,一方面,我们需要更完美的数据,但更重要的是需要一个更高效的「清洗」数据的工具。数据的质量决定了预测的能力。
即使是有效的数据,也会存在问题。不懂物理化学的自然语言处理,问题很严重。比如抽取化学反应会产生错误;错将溶剂当成反应物,最后只能通过人工调节得到合理的数据基础。但往往很难去手动调节每个过程,成本太高,那能否通过底层规则去「清洗」数据,通过探索发现可行。但「一个完美的理论必须以直接可观测量作为依据。」
从光谱角度,谱学是我们探索科学规律的一个重要工具。通过谱学观测量,可以把很多物理量(化学特性、物理特性、几何结构、电子态结构)关联起来。可建立融入关联性规则的鉴别模型。
然后,通过第一性原理计算去提升鉴别模型的维度和精度。因为很多数据在化学里很难测到,甚至只有理论定义,需要深入规则底层提供数据库,有了数据底层规则,其实就有了关联模型,也就是知识图谱已经成型。
提炼描述符
那么如何从知识图谱中提炼描述符,有了描述符甚至有一天可以建立更有效的复杂模型,去指导和解决实际应用问题。这一步的挑战在于:如何对高维非线性关联性进行解耦?
为什么关联性解耦,传统描述符的一个重要作用是简化复杂度(脱耦、分离变量、降维)去适应底层物理规则,相反,构效关系符是「融合变量」而不是「分离变量」。尝试开发解耦合算法,从描述符中抽取有效的复杂模型。
最后我们要建立复杂的模型,就意味着还要倒过来从描述符当中找它背后的偶极矩。通过建立数据集、知识图谱,提炼描述符,未来最终开发基于谱学的构效关系反演算法与软件,研究生物中心法则过程、催化剂材料逆向设计、全自动合成逆向预测。
低维到高维
在化学领域,结构和构效关系是最重要的,是我们实际问题的核心。那么具体怎么做呢?传统的套路,可以利用光谱去跟踪结构变化。挑战在于从测量光谱去反演结构/功能。
从测量光谱到反演结构/功能,其实是一个低维信息到高维信息的过程,这需要大量的数据补充。也就是需要建立一个计算平台提供计算数据同时去标定数据,在此我们可以建立一个谱学数据库,一个在线软件,为实验人员服务,在服务同时把它的数据收集起来,有这样一个数据补充,或许我们能够做那样的反演。
近期研究工作
  • 升维反演 多种谱学信息重构化学键能(BDE)。单个光谱信息有限,通过将拉曼光谱、核磁光谱、红外光谱多个维度光谱结合在一起,精度可到到0.94,进一步优化甚至可达到0.98。从低维反演高维,挑战很巨大,但机遇也很巨大。
    接下来,我们准备开发复杂体系结构与功能的谱学反演预测算法。
    图片

  • 绿色矿山系统 基于标准的谱学预测模型,利用磷矿石的有限数据集进行神经网络训练,预测化学结构和组分,误差<2%。以前是20万一套,现在加上软件卖200万一套,是真正的赋能。这个例子让我觉得确实有了底层规则,有了机器学习,可以把传统的矿山的开采行业数字化。


  • 除此以外,还可以做更复杂的体系,比如识别分子基团,识别羟基(-OH)、羰基(-C=O),准确度分别达99,36%、98.50%。
未来突破
  • 「机器化学家」赋能生命科学。
  • 「机器化学家」赋能仿生催化剂材料开发。
  • 「机器化学家」赋能全自动化学合成。
理论机器化学家中科大
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

推荐文章
暂无评论
暂无评论~