Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

精度提升20%,中科院、南京理工AI方法进行光电子能谱高维数据精细解析

图片

编辑丨ScienceAI

无监督聚类算法在划分 Nano-ARPES(ARPES:角分辨光电子能谱)空间映射数据集方面表现出强大的能力。然而,在区分细微的能带差异方面则表现欠佳。

在最新的研究中,中国科学院高能物理研究所的研究团队与南京理工大学的科研人员合作开发了一种多阶段无监督聚类算法(Multi-Stage Clustering Algorithm,MSCA)。

相较于传统的聚类算法,该算法在聚类精度上提升了约 20%,通过自动提取能带在表面的一致性从而清晰地划分出 MoS2/BN 异质结中不同衬底或层数 MoS的分布,并实现了细微能带差异的抓取。

该研究以「Automatic extraction of fine structural information in angle-resolved photoemission spectroscopy by multi-stage clustering algorithm」为题,于 2024 年 12 月 6 日发布在《Communications Physics》。

图片

在固体材料科学领域,ARPES 技术因其对电子动量和能量同时分辨的能力而被广泛用于量子材料的电子结构表征。传统的 ARPES 技术受限于毫米级的光斑尺寸而往往仅能对均质的完美单晶开展研究,高能同步辐射光源(HEPS)上的 Nano-ARPES 线站通过聚焦X射线光斑至纳米量级,使得研究电子结构在表面微纳尺度的分布成为可能。然而,样品表面的复杂性以及高维度的庞大数据量给 Nano-ARPES 的数据分析带来了挑战。

近年来,利用无监督聚类算法划分样品表面不同电子结构区域的研究取得了一定的进展。虽然传统的无监督聚类算法能够针对能带结构在秒量级完成对不同材料的区域划分,但在区分细微的能带差异方面则表现欠佳,比如传统聚类算法难以区分 MoS2/BN 异质结中由不同衬底或层数造成的 MoS价带劈裂。

然而这些由于某种诱导因素导致的细微能带变化往往蕴含着丰富的物理机制并且是研究人员所关注的信息。针对这一问题,作者开发了一种多阶段无监督聚类算法(Multi-Stage Clustering Algorithm,MSCA) ,该方法在 Nano-ARPES 数据集中同时实现了实空间和动量空间的聚类分析。此外,MSCA 能够指出一些细微的能带差异,如能带的移动或分裂,显著提高了聚类的准确性和识别限度。

样品介绍与K-means算法结果

本研究基于的数据来自样品 MoS2/BN/Au,三种材料叠放在一起,由上至下分别是 MoS2,BN 和 Au,样品的 Truth Table 由图 1 所示,Truth Table 用来计算算法的性能指标。目前应用广泛的 K-means 算法只能区分出具有较大差异的 Au,BN 和 MoS2 三种材料,但对于不同类型 MoS2 的区分表现欠佳,如图 2 所示。

图片

图 1 :样品的Truth Table:Au,BN,基于衬底 Au 的 MoS2,基于衬底 BN 的单层 MoS2 和基于衬底 BN 的多层 MoS2 的像素值分别是 0,1,2,3 和 4,不确定区域的像素值为 5。图片
图 2 :K-means 算法将 Nano-ARPES 数据集分为 3/6 类的结果。

Multi-Stage Clustering Algorithm(MSCA)

作者认为,不同类型 MoS的区分重点在于捕捉到细微的能带差异,而传统的K-means 算法将整个动量空间的能谱作为输入,会削弱特定能带的分辨能力,因此,实现精细聚类的关键在于捕捉到动量空间中特定的能带,基于能带区域的聚类将极大提升聚类精度,该过程可以通过多阶段聚类算法(MSCA)来解决, MSCA 的分析流程如图 3 所示。

图片

图 3 :多阶段聚类算法(MSCA)分析流程。

MSCA 将 K-means 算法应用于三个阶段的数据处理。在不同的能量-动量窗口中,实空间的 K-means 聚类结果被视为第二轮动量空间 K-means 聚类的输入。通过这种方式,可以捕获到在实空间表现出不均匀的能量-动量窗口,从而准确区分具有细微差异的单/多层以及不同衬底的 MoS2,如图 4 所示。

图片

图 4 :多阶段聚类算法(MSCA)动量空间及实空间的聚类结果。

为了评估各算法的精度,研究人员使用 Accuracy、Recall、Precision 和 F1 score 等指标评估了 K-means 与 MSCA 算法的性能。鉴于本研究中数据集的不平衡特性,研究人员通过计算 macro averages,对算法的整体聚类正确性提供了更平衡和全面的评估,确保性能不会受到实例数量较多的类别的影响(表1/2)。

相较于 K-means 算法,MSCA 的 Macro Accuracy,Precision,Recall 和 F1 Score 分别提升了 2%,6%,20% 和 18%。另外,每一类 MoS2 的 Precision 和 Recall 数值都更加的平衡,表明 MSCA 在正确识别正实例的同时能够有效避免将负实例错误分类为正实例,这种平衡的性能通常被认为是算法的理想特征。

图片

未来展望

MSCA 作为一种高效的数据处理方法,特别适用于处理具有复杂能带色散的样品,能够精确捕捉到细微的能带差异,对于高维科学数据分析具有重要的实用价值。MSCA 能够像经验丰富的研究人员一样,自动搜索空间中的不均匀能带结构,并突出显示这些能带,无需依赖以往的研究知识。

随着 MSCA 的引入,Nano- ARPES 的应用将变得更加强大。与人工提取能带信息的方式相比,MSCA 的表现更佳,尤其是在信噪比低的二维 ARPES 图像中,这将帮助研究人员基于更短的采集时间快速找到感兴趣的区域。此外,系统稳定性是 Nano-ARPES 的关键因素,MSCA 可以通过监控每次独立采集之间的相似性来去除偏差数据,从而提高 Nano-ARPES 系统对低频波动的鲁棒性。

未来,MSCA 算法将集成到 HEPS 的 Nano-ARPES 数据采集系统(MAMBA),实现在线精细聚类和能带结构提取,进行高效的 ARPES 实验数据采集,加速各类基础科研成果的产出。

论文链接:https://www.nature.com/articles/s42005-024-01878-1

代码链接:https://github.com/lbian94/FineClustering

图片均来自论文或网络。

理论算法中国科学院高能物理研究所
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

聚类分析技术

聚类分析(CA)是一种典型的无监督学习方法,这种方法是根据对象的特点将它们分成不同的组。K-均值是应用最广泛的聚类方法,其它方法还包括 k-Medoids、分层聚类和 DBSCAN。期望最大化法(EM)也是聚类分析的一种解决方案。聚类分析在数据挖掘、市场调研、异常值检测等许多领域都有应用。另外,降维技术也是一类类似于聚类分析的无监督学习方法,其典型的代表有主成分分析(PCA)、线性判别分析和 Isomap。

动量技术

优化器的一种,是模拟物理里动量的概念,其在相关方向可以加速SGD,抑制振荡,从而加快收敛

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~