编辑/凯霞
传统的材料设计依赖于人的直觉,但随着材料化学和加工变得越来越复杂,这变得越来越具有挑战性。随着人工智能发展,生成式深度学习(Generative deep learning)正在推动材料设计领域的一波创新浪潮。
「我们在新闻中听到了很多关于深度造假的消息——人工智能可以生成与真人不相符的逼真人脸图像,」宾夕法尼亚州立大学材料科学与工程系、计算与数据科学研究所助理教授 Wesley Reinhart说。「这与我们在研究中使用的技术完全相同。我们基本上只是将这个人脸图像示例换成高性能合金的元素成分。」
宾夕法尼亚州立大学的科学家,通过对用于超高温的难熔高熵合金进行案例研究,讨论了这些方法的基本操作原理及其相对于合理设计的优势。初步结果表明,生成模型是一种很有前途的材料设计新方法。
该文章以「Generative deep learning as a tool for inverse design of high entropy refractory alloys」为题,发表在《Journal of Materials Informatics》杂志上。
镍基高温合金因其在高温下的特殊性能,而成为涡轮机等高温应用的流行材料系统。然而,当前这一代镍基组件的运行温度接近其熔点 (1100 °C),并且内部冷却通道和传统热障涂层等额外的热管理策略也已达到极限。
耐火合金是有希望的候选者。然而,传统的难熔合金在室温下具有低延展性,且容易氧化。为了解决这些缺陷,已经采用了各种各样的处理技术。其中一种途径是从难熔元素生产高熵合金(HEAs)。
然而,迄今为止,已经发现的 HEA 性能超过镍基高温合金的数量非常有限。因此,使用传统的试错法设计满足这些要求的新 HEA 是一项具有挑战性的任务。
在这里,科学家选择对高熵耐火合金进行案例研究。该文章主要分以下几部分:
- 首先,讨论使用传统设计方案的挑战,甚至最近的机器学习方法加速的设计方案,以及生成式深度学习如何提供解决方案。
- 接下来,描述了支持科学家的方法的数据生态系统,并提供了对这些数据进行训练的生成模型的初步结果。
- 最后,简要评论了将这些技术应用于材料设计的未来挑战。
高熵难熔合金的设计
数据驱动的理性设计
在过去十年中,基于热力学的稳定相预测和评估的相图计算 (CALPHAD) 方法和密度泛函理论 (DFT) 的第一原理已经成熟,并将继续为日益丰富的数据生态系统做出贡献。
丰富的合金相稳定性数据库可以通过专家直觉或更复杂的数值技术实现合理设计。但是,要通过数据挖掘和预测建模软件使一般科学界可以访问这些数据,还有更多工作要做。
基于这些丰富的数据集,深度学习等机器学习方法可以用于快速预测假设化合物的性质。此外,可以通过特定材料特性的替代模型来实现有针对性的合金设计。
近年来,HEA 设计尤其受益于数据驱动的建模。各种数据驱动的方法已用于预测 HEA 的稳定相。不幸的是,即使这些前向模型(forward models)取得了成功,传统的组合候选方法,在物理上不可能完全研究非等原子 HEAs 的情况。
生成式建模
目标是基于最近在依赖隐式特征学习的其他材料设计环境中使用的端到端 DNN 架构的成功的基础上。这些模型的核心优势是能够学习复杂设计空间的有意义的表示。此外,学习空间是低维且平滑的。
这些模型中最受欢迎的是生成对抗网络(GAN)。该方案允许生成器在没有太多训练数据的情况下学习高质量的表示。
走向逆向设计
在 vanilla GAN 中,无法控制生成器产生的输出,这意味着在找到合适的候选者之前必须抽取许多样本。然而,这可以在条件 GAN (cGAN) 架构中进行控制,生成器提供了一个额外的条件向量,该向量强制执行潜在空间和所需品质因数之间的映射。通过这种方式,生成器学习了基于合金成分的基础合金性能数据的概率分布,因此,从多维分布中提取的样本将代表具有可预测性能的可行成分。
图 1:使用条件生成对抗网络进行材料逆向设计的生成建模示意图。(来源:论文)
cGAN 方法已在铝合金设计中得到证明。在这种情况下,在逆问题中使用条件密度估计可以非常有效地探索高维设计空间,从而设计出数十种新的稳定合金。这些模型解决设计问题的成功在很大程度上依赖于可逆性。
值得注意的是,除了 GAN 之外,还有其他生成架构也适用于这个问题,例如条件变分自编码器 (CVAE)。然而,由于训练过程固有的噪声注入,以及对重建误差的预定义度量的要求,VAE 已被证明产生的结果不如 GAN。
尽管 cGAN 具有优势,但其难以使用,并且需要进行大量调整才能获得良好的结果。在训练过程中必须为条件向量提供合适的分布,以确保生成器和鉴别器都有机会探索联合分布。这些模型也可能遭受梯度消失、收敛问题和模式崩溃。
案例研究:耐火封头的逆向设计
数据生态系统
任何生成材料设计工作都需要与现有文献数据和科学技术密切集成,来验证超出已知集合的生成样本。科学家通过在本案例研究中创建一个高级数据生态系统来实现这一点,如图 2 所示。
图 2:支持逆向设计的数据生态系统示意图。(来源:论文)
这种以独特材料的自动识别为中心的安排,允许在数据库知识的当前状态下有效且全自动地识别空隙。每当检测到数据库中的变化时,例如每当 GAN 设计一种新合金时,生态系统的适当组件就可以动态处理这些空隙。
在本案例研究中,这是通过一个持续运行的云虚拟机服务器通过高吞吐量应用程序编程接口链接到数据库来实现的。
在这个案例研究中,发现元素特性的结构感知线性组合特别有用。然后使用具有各种属性的无空隙材料数据集来创建生成模型,其中材料用作样本,相关属性用于调节模型。使用经过训练的 GAN,生成新的候选对象,并将其作为需要验证的新材料上传回低级数据集。
这种生态系统设计的固有地导致独立但交互循环中的数据流,如图 3 所示,为设计过程提供了许多好处。最重要的是,它允许文献、逆向设计和验证之间的交互完全自动化,确保在任何给定时间,GAN 都在所有可用数据上进行训练,并在最近的候选选择上运行验证。一旦运行,它消除了任何等待阶段,从而最大限度地提高给定资源的发现率。
图 3:生态系统中的四个主要数据流动路径。(来源:论文)
构建生成模型
收集到足够的数据集,然后,开始推动数据生态系统的逆向设计组件。为了展示具有所需特性的新型难熔 HEA,使用来自数据库的 529 个 HEA 文献衍生组合物训练基于具有四个完全连接层的简单前馈神经网络架构的 cGAN 模型。GAN 的对抗性损失相对于其他竞争方法(如 VAE 的重建损失)的一个优势是目标函数的简单性。
接下来,将通过实验或通过其他计算方法验证生成的材料成分的属性,例如结合 CALPHAD 模型的 ab-initio DFT 计算,并反馈到数据生态系统中作为 cGAN 的新训练数据集。此循环将确保连续生成新的候选合金,每次迭代都会增加达到目标性能的概率。
科学家首先表明 cGAN 可以学习耐火 HEAs 的潜在分布。为了评估发生器,考虑了图 4 中生成的合金成分整体的一些不同测量。虽然可以观察到一些细微的差异,但发生器似乎已经在很大程度上捕获了难熔 HEA 的基本定义——例如相关性不同元素之间以及不同组成元素的数量——除了收集合金成分的原始数据之外,我们不需要为模型提供任何指导(例如,设计规则)。
图 4:真实(顶行)和生成(底行)组合的比较。(来源:论文)
除了生成有效的成分外,还了解了成分和材料属性之间的联合分布。为了评估这一点,科学家根据图 5 中的参考属性值绘制了提供给生成器的条件。
图 5:科学家数据库中组合物的参考值和 cGAN (A) 剪切模量和 (B) 断裂韧性值的比较。(来源:论文)
剪切模量近似为元素剪切模量值的简单线性组合(LC),而断裂韧度使用莱斯(Rice)模型获得,由方程给出,
其中 EUSF 是不稳定的堆垛层错能,G 是沿滑动面滑动的剪切模量,v 是稳定单元参考结构的泊松比。在具有更普遍的训练数据 (40 GPa < G < 100 GPa) 的区域中有很好的一致性,而观察较少的外围区域 (G > 100 GPa) 显示出较弱的拟合。总体而言,cGAN 模型在大部分数据域中都很好地捕获了剪切模量和断裂韧性值。
逆向设计
接下来展示如何使用经过训练的模型来执行 HEA 组合物对剪切模量和断裂韧性的逆向设计。通过提供具有所需属性值的调节向量,生成器可以偏向于可能表现出这些属性的组合物,如图 6 所示。研究发现,cGAN 模型选择合适的元素来生成最接近目标属性的组合。
图 6:通过将剪切模量值固定在 (A) 30 GPa、(B) 60 GPa、(C) 90 GPa 和 (D) 120 GPa 生成的剪切模量和断裂韧性(顶部)和样品组成(底部)的直方图。(来源:论文)
虽然图 6 中的目标 (A-C) 看起来相当匹配,但发电机与 (D) 相抗衡,对应于 120 GPa 的剪切模量。生成器偏向于创建与强加条件匹配的有效组合。因此,生成器依赖于创建具有高于和低于目标的广泛剪切模量值的组合物以进行补偿。
此外,当发生器不要求特定的断裂韧性值时,增加剪切模量的值自然会导致生成的组合物中的断裂韧性增加。这两种特性之间一般相关性的结果如图 7 所示。因此,cGAN 模型隐式地学习了剪切模量和断裂韧性值之间的相关性,并倾向于生成具有一致剪切模量和断裂韧性值的组合物。
图 7:(A) 实际组合物的剪切模量和断裂韧性值之间的相关性。a、b、c 和 d 代表四个感兴趣的条件情况。(B) 使用面板 (a) 中所示条件生成的组合物的剪切模量和断裂韧性的直方图。直方图中蓝色的强度表示具有相应剪切模量和断裂韧性值的组合物数量较多。(来源:论文)
发现新合金而不是简单地从已知成分中取样,通常需要 cGAN 模型能够生成具有这些属性相反值的成分(例如,高剪切模量和低断裂韧性)。科学家生成了一组组合(如图 8 所示)来评估这种能力,并具有条件向量中指定的两个属性。在这些情况下,单一元素的优势表明生成器依赖于一些具有不寻常属性的特定元素来实现这些相反的目标。
图 8:使用图 7 中指定的条件生成的样品成分。(来源:论文)
结论和展望
生成式深度学习正在影响一系列科学领域,材料信息学也不例外。例如,科学家已经展示了使用 cGAN 逆向设计难熔 HEA 的初步进展。从文献中仅观察到几百个 HEA 组合物,模型就能够捕捉数据中的重要趋势并重现逼真的组合物。
训练后的模型具有目标性能的新合金的能力,基于在近似力学性能和生成器使用的潜在代码之间的学习相关性。虽然它不能产生完美的匹配,但这种条件会严重偏向模型生成的组合类型。
科学家表示:「我们相信这些生成模型是一种很有前途的材料设计新方法,将与更传统的计算技术结合使用。」
论文链接:https://jmijournal.com/article/view/4294
参考内容:https://techxplore.com/news/2021-11-ai-deepfakes-power-materials.html