Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

直逼记录极限,机器学习助力开发全新钙钛矿电池原料

图片

编辑丨&

钙钛矿太阳能电池(PSCs),近年来成为了新兴绿色环保电池的代表。而影响其性能的空穴传输材料(HTMs)的设计主要依赖于实验者定性与识别 HTM 结构中的模式。

这种方法缺乏对新材料的机制理解,同时还需要在高维数据集中进行模式识别。研究人员尝试使用机器学习(ML)结合有机合成以深入研究,试图合成更有效的聚合物。

然而,尽管这些聚合物的不溶性特性减少了纯化挑战并丰富了数据库,但限制了这类材料的更广泛应用。

这些最新研究中出现的一个普遍发现是,自主优化算法不仅需要足够大的数据量,还需要数据多样性,这就需要合成结构多样的分子的可能性。

为了快速筛选优化电池所需的新型材料,团队提出一种机器算法模型来协助他们进行工作。该成果以「Inverse design workflow discovers hole-transport materials tailored for perovskite solar cells」为题,于2024 年 12 月 12 日刊登于《Science》。

图片

为了获得准确的趋势,在均匀的器件条件下表征这些分子的性能,需要对其中的标准器件进行基于 PTAA 的优化。团队希望能够加速新型高性能 HTMs 的发现,从而提高钙钛矿太阳能电池的整体性能和商业竞争力。

逆向设计工作流程

在结合了所有可用的商业单体后,团队使用木偶联反应规则创建虚拟的分子组合,从源数据库中随机选择分子进行密度泛函理论(DFT)计算,生成包含 13,000 个分子的数据库。随后,他们根据特定的规则从中间数据库中选择分子,用于模型训练和迭代验证。

通过内部的高通量(HT)平台合成、纯化和表征合成数据库中的分子,可以将合成的分子用作 PSC 中的 HTMs,并在器件和半器件中表征。

随后,在 HTM 描述符和设备参数上训练模型。新的分子被预测、合成和实验测量后,会被反馈到数据库中。如此重复迭代,直到从集合中发现最佳 HTM。

图片

图示:逆向流程方法概述。(图片来自论文)

在这个研究中,高斯过程(GP)回归被选为贝叶斯优化(BO)的代理模型,因为它提供了不确定性度量,而这对于贝叶斯优化中的采集策略至关重要。

贝叶斯优化策略会选择最有潜力的新分子进行合成和实验验证。贝叶斯优化考虑了模型的预测不确定性,以平衡探索,例如寻找新的有潜力的分子和利用改进已知的高性能分子。

在某些情况下,模型可能同时预测多个性能指标(如功率转换效率 PCE、开路电压 Voc、短路电流密度 Jsc、填充因子 FF 等),这称为多任务学习。这种方法可以帮助识别不同性能指标之间的相关性,并可能提高预测的准确性。

通过这种工作流程,该模型能够预测分子结构对钙钛矿太阳能电池性能的影响,协助团队快速发现和优化高性能材料。这种方法大大加快了新材料的发现速度,并减少了传统试错方法所需的时间和资源。

ML模型与特征工程

为了更好地理解观察数据中的结构-性质关系,团队构建了一个 ML 模型,将代表性的分子描述符与器件的 PCE 相关联。与分类标记相反,连续分子描述符可用于提供 ML 可读描述,其可将未见的片段整合到同一本体中。

对于 ML 模型,团队人员寻找了一组充分捕捉设备差异而不依赖于特定假设的描述符。为了保证代表性,他们选择了简单分子统计的组合,具有理论计算的特征和几何性质。

团队对提取的描述符进行预处理,包括归一化、标准化等,以确保模型能够有效地处理这些数据。

考虑了特定原子在报道中与钙钛矿具有积极的相互作用,与影响空穴传输的因素,如分子刚性和共轭,他们选择在101个实验分子数据点的随机10倍交叉验证上训练了不同的ML模型。

为了证明 ML 模型可以通过预测用于空穴提取的可行的新有机半导体来发现新分子,研发团队进行了两次闭环材料优化迭代。这一过程需要通过 ML 代理模型和贝叶斯选择标准来识别潜在的候选物,自动合成候选物。

结果显示,新系列材料产生的设备 PCE 通常高于初始数据库中材料的 PCE,证明了 ML 在“利用”模式下操作时相对于随机采样或网格搜索方法的优势。其中,6 个分子超过了 PTAA 的器件参考值。

在第二次迭代中,考虑到控制钙钛矿器件性能的众多因素,虽然没有发现全新的最终 HTM,但最终结果仍与第一次模拟相当。这一结果肯定了工作流程的潜力和可行性。

为了获得准确的趋势,在均匀的器件条件下表征这些分子的性能,需要对其中标准器件基于 PTAA 进行优化。当探索材料性能的极限时,需要根据材料的特性调整器件参数

模型的探索分析

为了获得对模型所学内容的可解释部分的洞察能力,团队进一步添加了实验材料的不同特性。并且从训练的 ML 模型中提取了特征重要性信息。

为了识别更具决定性的特征,团队决定使用递归特征机(RFM)进行了特征分析。在此之中,他们选择使用了拉普拉斯核的推广,该推广结合了可学习的特征矩阵 M 来计算数据点之间的马氏距离。

图片

图示:模型分析。(图片来自论文)

除了分子的电子性质,合成产物的纯度是最终器件性能的最关键描述符。这一发现证实了杂质通常会降低整体性能,这是由于潜在的扩散和在相邻层中引入陷阱或不需要的掺杂。

为了拥有一个更便于解释的模型,他们还训练了一个线性回归模型,用于将特征空间减少到较低的子集。结果模型的评判标准采用了贝叶斯标准,八个特征来预测 PCE。

为了让化学家和材料科学家更清楚地了解发现,使他们能够根据发现更深入地研究分子设计,研究人员决定使用化学语言来阐明 ML 的结果。特征重要性图突出了 HOMO(最高占据分子轨道)的重要性和模型中叔胺(这里通常指 TPA)的存在。

告一段落的归纳

通过强调从训练 ML 模型中学到的双重策略来进行总结,该模型能够基于分子结构输入来预测诸如器件性能这样的复杂特性。这种模型可以在双重策略中进一步探索。

一方面,它可以用于自主工作流程,以识别和预测进一步的新分子。另一方面,合成研究员可以使用该模型来预测特定化学空间内新分子设计的钙钛矿器件性能,并且该过程可以被完全训练的模型中的设计规则集进一步指导和支持。

展望未来,团队目标是将材料发现和设备优化集成到一个无缝的闭环流程中。实现这一目标需要跨学科研究的共同努力,结合材料科学、工程和先进计算技术的见解,以创建一个协同的工作流程。

相关报道:https://techxplore.com/news/2024-12-machine-perovskite-solar-cells-efficiency.html

原文链接:DOI:10.1126/science.ads0901

理论电池AI for Science
相关数据
网格搜索技术

网格搜索是一项模型超参数优化技术,常用于优化三个或者更少数量的超参数,本质是一种穷举法。对于每个超参数,使用者选择一个较小的有限集去探索。然后,这些超参数笛卡尔乘积得到若干组超参数。网格搜索使用每组超参数训练模型,挑选验证集误差最小的超参数作为最好的超参数。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

高斯过程技术

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

多任务学习技术

法大大机构

深圳法大大网络科技有限公司(www.fadada.com)是国内领先的第三方电子合同平台,主要为金融、房地产、汽车、人力资源服务、教育、保险、第三方支付、旅游、医疗、物流、供应链、B2B、B2C线上交易平台等行业以及政府机构提供电子合同、电子文件签署及存证服务,同时整合提供司法鉴定和律师服务等增值服务。

https://www.fadada.com
本体技术

在计算机科学和信息科学中,本体包括表示、正式命名和定义概念,数据,实体之间的类别,属性和关系,并在一个,多个或所有域实例中。

推荐文章
暂无评论
暂无评论~