Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

深度学习推动新一波材料设计创新浪潮,超高温难熔高熵合金为例

编辑/凯霞

传统的材料设计依赖于人的直觉,但随着材料化学和加工变得越来越复杂,这变得越来越具有挑战性。随着人工智能发展,生成式深度学习(Generative deep learning)正在推动材料设计领域的一波创新浪潮。

「我们在新闻中听到了很多关于深度造假的消息——人工智能可以生成与真人不相符的逼真人脸图像,」宾夕法尼亚州立大学材料科学与工程系、计算与数据科学研究所助理教授 Wesley Reinhart说。「这与我们在研究中使用的技术完全相同。我们基本上只是将这个人脸图像示例换成高性能合金的元素成分。」

宾夕法尼亚州立大学的科学家,通过对用于超高温的难熔高熵合金进行案例研究,讨论了这些方法的基本操作原理及其相对于合理设计的优势。初步结果表明,生成模型是一种很有前途的材料设计新方法。

该文章以「Generative deep learning as a tool for inverse design of high entropy refractory alloys」为题,发表在《Journal of Materials Informatics》杂志上。

<mark data-type=tech_methods data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习</mark>推动新一波材料设计创新浪潮,超高温难熔高熵合金为例


镍基高温合金因其在高温下的特殊性能,而成为涡轮机等高温应用的流行材料系统。然而,当前这一代镍基组件的运行温度接近其熔点 (1100 °C),并且内部冷却通道和传统热障涂层等额外的热管理策略也已达到极限。

耐火合金是有希望的候选者。然而,传统的难熔合金在室温下具有低延展性,且容易氧化。为了解决这些缺陷,已经采用了各种各样的处理技术。其中一种途径是从难熔元素生产高熵合金(HEAs)。

然而,迄今为止,已经发现的 HEA 性能超过镍基高温合金的数量非常有限。因此,使用传统的试错法设计满足这些要求的新 HEA 是一项具有挑战性的任务。

在这里,科学家选择对高熵耐火合金进行案例研究。该文章主要分以下几部分:

  • 首先,讨论使用传统设计方案的挑战,甚至最近的机器学习方法加速的设计方案,以及生成式深度学习如何提供解决方案。
  • 接下来,描述了支持科学家的方法的数据生态系统,并提供了对这些数据进行训练的生成模型的初步结果。
  • 最后,简要评论了将这些技术应用于材料设计的未来挑战。

高熵难熔合金的设计

数据驱动的理性设计

在过去十年中,基于热力学的稳定相预测和评估的相图计算 (CALPHAD) 方法和密度泛函理论 (DFT) 的第一原理已经成熟,并将继续为日益丰富的数据生态系统做出贡献。

丰富的合金相稳定性数据库可以通过专家直觉或更复杂的数值技术实现合理设计。但是,要通过数据挖掘和预测建模软件使一般科学界可以访问这些数据,还有更多工作要做。

基于这些丰富的数据集,深度学习机器学习方法可以用于快速预测假设化合物的性质。此外,可以通过特定材料特性的替代模型来实现有针对性的合金设计。

近年来,HEA 设计尤其受益于数据驱动的建模。各种数据驱动的方法已用于预测 HEA 的稳定相。不幸的是,即使这些前向模型(forward models)取得了成功,传统的组合候选方法,在物理上不可能完全研究非等原子 HEAs 的情况。

生成式建模

目标是基于最近在依赖隐式特征学习的其他材料设计环境中使用的端到端 DNN 架构的成功的基础上。这些模型的核心优势是能够学习复杂设计空间的有意义的表示。此外,学习空间是低维且平滑的。

这些模型中最受欢迎的是生成对抗网络(GAN)。该方案允许生成器在没有太多训练数据的情况下学习高质量的表示。

走向逆向设计

在 vanilla GAN 中,无法控制生成器产生的输出,这意味着在找到合适的候选者之前必须抽取许多样本。然而,这可以在条件 GAN (cGAN) 架构中进行控制,生成器提供了一个额外的条件向量,该向量强制执行潜在空间和所需品质因数之间的映射。通过这种方式,生成器学习了基于合金成分的基础合金性能数据的概率分布,因此,从多维分布中提取的样本将代表具有可预测性能的可行成分。

<mark data-type=tech_methods data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习</mark>推动新一波材料设计创新浪潮,超高温难熔高熵合金为例


图 1:使用条件生成对抗网络进行材料逆向设计的生成建模示意图。(来源:论文)

cGAN 方法已在铝合金设计中得到证明。在这种情况下,在逆问题中使用条件密度估计可以非常有效地探索高维设计空间,从而设计出数十种新的稳定合金。这些模型解决设计问题的成功在很大程度上依赖于可逆性。

值得注意的是,除了 GAN 之外,还有其他生成架构也适用于这个问题,例如条件变分自编码器 (CVAE)。然而,由于训练过程固有的噪声注入,以及对重建误差的预定义度量的要求,VAE 已被证明产生的结果不如 GAN。

尽管 cGAN 具有优势,但其难以使用,并且需要进行大量调整才能获得良好的结果。在训练过程中必须为条件向量提供合适的分布,以确保生成器和鉴别器都有机会探索联合分布。这些模型也可能遭受梯度消失、收敛问题和模式崩溃。

案例研究:耐火封头的逆向设计

数据生态系统

任何生成材料设计工作都需要与现有文献数据和科学技术密切集成,来验证超出已知集合的生成样本。科学家通过在本案例研究中创建一个高级数据生态系统来实现这一点,如图 2 所示。

<mark data-type=tech_methods data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习</mark>推动新一波材料设计创新浪潮,超高温难熔高熵合金为例


图 2:支持逆向设计的数据生态系统示意图。(来源:论文)

这种以独特材料的自动识别为中心的安排,允许在数据库知识的当前状态下有效且全自动地识别空隙。每当检测到数据库中的变化时,例如每当 GAN 设计一种新合金时,生态系统的适当组件就可以动态处理这些空隙。

在本案例研究中,这是通过一个持续运行的云虚拟机服务器通过高吞吐量应用程序编程接口链接到数据库来实现的。

在这个案例研究中,发现元素特性的结构感知线性组合特别有用。然后使用具有各种属性的无空隙材料数据集来创建生成模型,其中材料用作样本,相关属性用于调节模型。使用经过训练的 GAN,生成新的候选对象,并将其作为需要验证的新材料上传回低级数据集。

这种生态系统设计的固有地导致独立但交互循环中的数据流,如图 3 所示,为设计过程提供了许多好处。最重要的是,它允许文献、逆向设计和验证之间的交互完全自动化,确保在任何给定时间,GAN 都在所有可用数据上进行训练,并在最近的候选选择上运行验证。一旦运行,它消除了任何等待阶段,从而最大限度地提高给定资源的发现率。

<mark data-type=tech_methods data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习</mark>推动新一波材料设计创新浪潮,超高温难熔高熵合金为例


图 3:生态系统中的四个主要数据流动路径。(来源:论文)

构建生成模型

收集到足够的数据集,然后,开始推动数据生态系统的逆向设计组件。为了展示具有所需特性的新型难熔 HEA,使用来自数据库的 529 个 HEA 文献衍生组合物训练基于具有四个完全连接层的简单前馈神经网络架构的 cGAN 模型。GAN 的对抗性损失相对于其他竞争方法(如 VAE 的重建损失)的一个优势是目标函数的简单性。

接下来,将通过实验或通过其他计算方法验证生成的材料成分的属性,例如结合 CALPHAD 模型的 ab-initio DFT 计算,并反馈到数据生态系统中作为 cGAN 的新训练数据集。此循环将确保连续生成新的候选合金,每次迭代都会增加达到目标性能的概率。

科学家首先表明 cGAN 可以学习耐火 HEAs 的潜在分布。为了评估发生器,考虑了图 4 中生成的合金成分整体的一些不同测量。虽然可以观察到一些细微的差异,但发生器似乎已经在很大程度上捕获了难熔 HEA 的基本定义——例如相关性不同元素之间以及不同组成元素的数量——除了收集合金成分的原始数据之外,我们不需要为模型提供任何指导(例如,设计规则)。

<mark data-type=tech_methods data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习</mark>推动新一波材料设计创新浪潮,超高温难熔高熵合金为例


图 4:真实(顶行)和生成(底行)组合的比较。(来源:论文)

除了生成有效的成分外,还了解了成分和材料属性之间的联合分布。为了评估这一点,科学家根据图 5 中的参考属性值绘制了提供给生成器的条件。

<mark data-type=tech_methods data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习</mark>推动新一波材料设计创新浪潮,超高温难熔高熵合金为例

图 5:科学家数据库中组合物的参考值和 cGAN (A) 剪切模量和 (B) 断裂韧性值的比较。(来源:论文)

剪切模量近似为元素剪切模量值的简单线性组合(LC),而断裂韧度使用莱斯(Rice)模型获得,由方程给出,

<mark data-type=tech_methods data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习</mark>推动新一波材料设计创新浪潮,超高温难熔高熵合金为例

其中 EUSF 是不稳定的堆垛层错能,G 是沿滑动面滑动的剪切模量,v 是稳定单元参考结构的泊松比。在具有更普遍的训练数据 (40 GPa < G < 100 GPa) 的区域中有很好的一致性,而观察较少的外围区域 (G > 100 GPa) 显示出较弱的拟合。总体而言,cGAN 模型在大部分数据域中都很好地捕获了剪切模量和断裂韧性值。

逆向设计

接下来展示如何使用经过训练的模型来执行 HEA 组合物对剪切模量和断裂韧性的逆向设计。通过提供具有所需属性值的调节向量,生成器可以偏向于可能表现出这些属性的组合物,如图 6 所示。研究发现,cGAN 模型选择合适的元素来生成最接近目标属性的组合。

<mark data-type=tech_methods data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习</mark>推动新一波材料设计创新浪潮,超高温难熔高熵合金为例

图 6:通过将剪切模量值固定在 (A) 30 GPa、(B) 60 GPa、(C) 90 GPa 和 (D) 120 GPa 生成的剪切模量和断裂韧性(顶部)和样品组成(底部)的直方图。(来源:论文)

虽然图 6 中的目标 (A-C) 看起来相当匹配,但发电机与 (D) 相抗衡,对应于 120 GPa 的剪切模量。生成器偏向于创建与强加条件匹配的有效组合。因此,生成器依赖于创建具有高于和低于目标的广泛剪切模量值的组合物以进行补偿。

此外,当发生器不要求特定的断裂韧性值时,增加剪切模量的值自然会导致生成的组合物中的断裂韧性增加。这两种特性之间一般相关性的结果如图 7 所示。因此,cGAN 模型隐式地学习了剪切模量和断裂韧性值之间的相关性,并倾向于生成具有一致剪切模量和断裂韧性值的组合物。

<mark data-type=tech_methods data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习</mark>推动新一波材料设计创新浪潮,超高温难熔高熵合金为例

图 7:(A) 实际组合物的剪切模量和断裂韧性值之间的相关性。a、b、c 和 d 代表四个感兴趣的条件情况。(B) 使用面板 (a) 中所示条件生成的组合物的剪切模量和断裂韧性的直方图。直方图中蓝色的强度表示具有相应剪切模量和断裂韧性值的组合物数量较多。(来源:论文)

发现新合金而不是简单地从已知成分中取样,通常需要 cGAN 模型能够生成具有这些属性相反值的成分(例如,高剪切模量和低断裂韧性)。科学家生成了一组组合(如图 8 所示)来评估这种能力,并具有条件向量中指定的两个属性。在这些情况下,单一元素的优势表明生成器依赖于一些具有不寻常属性的特定元素来实现这些相反的目标。

<mark data-type=tech_methods data-id=01946acc-d031-4c0e-909c-f062643b7273>深度学习</mark>推动新一波材料设计创新浪潮,超高温难熔高熵合金为例

图 8:使用图 7 中指定的条件生成的样品成分。(来源:论文)

结论和展望

生成式深度学习正在影响一系列科学领域,材料信息学也不例外。例如,科学家已经展示了使用 cGAN 逆向设计难熔 HEA 的初步进展。从文献中仅观察到几百个 HEA 组合物,模型就能够捕捉数据中的重要趋势并重现逼真的组合物。

训练后的模型具有目标性能的新合金的能力,基于在近似力学性能和生成器使用的潜在代码之间的学习相关性。虽然它不能产生完美的匹配,但这种条件会严重偏向模型生成的组合类型。

科学家表示:「我们相信这些生成模型是一种很有前途的材料设计新方法,将与更传统的计算技术结合使用。」

论文链接:https://jmijournal.com/article/view/4294

参考内容:https://techxplore.com/news/2021-11-ai-deepfakes-power-materials.html

产业
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型,最简单的模型最有可能是最佳选择(奥卡姆剃刀)。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~