Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

打破AI遗忘诅咒的学习算法,慕尼黑-南大团队打造会自主积累知识的学习框架

图片

编辑丨&

人类可以在一生中不断积累知识并发展越来越复杂的行为和技能,这种能力被称为「终身学习」。

这种终身学习能力被认为是构成一般智能的基本机制,但人工智能的最新进展主要在狭窄的专业领域表现出色,对于这种终身学习能力显得有些缺乏。

慕尼黑大学与南京大学的研究团队联手打造了一款机器人终身强化学习框架,它通过开发一个受贝叶斯非参数域启发的知识空间来解决这一差距。

语言集成被嵌入到该框架中以增强代理对任务的语义理解,团队所提出的具身代理可以从连续的一次性喂养任务流中持续积累知识。

该成果以「Preserving and combining knowledge in robotic lifelong reinforcement learning」为题,于 2025 年 2 月 5 日发布于《Nature Machine Intelligence》。

图片

代理可以通过组合和重新应用其从原始任务流中获得的知识来处理具有挑战性的现实世界长期任务。拟议的框架有助于促进对机器人终身学习过程的理解,激发更广泛适用的智能的发展。

机器人终身强化学习

人类通过不断获取知识和适应不同的环境来获得非凡的学习能力,这种学习行为涉及到益不断的复杂行为和渐进发展,被认为是实现一般智能的关键机制。

尽管当今人工智能代理在各种任务中取得了卓越的表现,但实际上它们主要关注专门从事狭义分布式任务的代理。未经训练的代理在其整个生命周期中通常比人类需要更多的训练时长,而且难以有效地进行推广。

本研究侧重于机器人终身强化学习 (LRL)。在这个领域,强化学习提供了一个非常适合按顺序探索学习过程的代理-环境交互框架。

图片

图示:机器人 LRL 过程的概念图。(图源:论文)

对于基于深度学习的算法,对一系列任务时的主要挑战是平衡稳定性和可塑性神经网络。而在这种情况下,「灾难性遗忘」导致的前学习的技能相关的神经网络参数被快速覆盖的现象成为了常见的问题。

在深度强化学习的背景下,避免「灾难性遗忘」的一个常见想法是通过多任务强化学习 (MTRL)。在 MTRL 中,代理在训练期间可以同时访问所有任务,从而避免了深度神经网络中固有的遗忘问题。

虽然 MTRL 试图通过同时提供来自各种任务的数据来避免灾难性遗忘的问题,但这个问题在顺序学习过程中仍然存在。

团队将他们的框架命名为 LEGION:一种基于语言嵌入的具有非参数贝叶斯的生成增量非策略强化学习框架。它展示了自己实现通用智能的潜力,并可能激发开发更广泛适用的智能代理

LEGION 框架的测试

对于长距离任务,团队采用了 KUKA iiwa 机械臂作为实施例,并使用全局 RealSense 摄像头来获取视觉信息。代理通过重新组合从一次性喂养任务流中获得的底层知识来实现本次任务,展示了它在面对多样化和具有挑战性的任务分配时的有效泛化。

图片

图示:实际单个任务的性能。(图源:论文)

对于给定的一连串的一次性喂食任务,LRL 代理可以接连不断地完成任务,而不会忘记以前获得的知识。这种增量学习方法模仿了自然的人类学习过程,有可能在实际应用中取代并最终超越低效的手动服务。

对于一些难度较高的挑战任务,代理模型也可以保证较高的完成率。

知识保存

在这个框架中,任务编码器最初推断状态输入并生成潜在样本作为推理结果,随后推断的任务结果被拟合到非参数知识空间中。

在知识空间中提出的 DPMM 模块可以在切换环境时生成新组件来存储新的任务推理结果,从而促进推理和存储新知识的能力。代理执行的两次循环有助于评估此前获得的知识。

图片

图示:知识空间的 t-SNE 快照。(图源:论文)

在代理的终身学习过程中,团队还观察到积极的向前转移现象。具体来说,对于「抽屉关闭」任务,早期从「推」、「拾取-放置」和「开门」等任务中获得的知识有助于「抽屉关闭」的成功。

此外,知识排练也是终身学习的重要组成部分。最近计算机视觉方面的研究已经表明,排练可以有效地减轻学习过程中的遗忘。

多个任务的持续改进强调了代理模型在重新掌握任务和保持高成功率方面的稳健性,展示了框架的潜力,尤其是 DPMM 在推进 LRL 方面的知识空间。

小结

机器人终身学习侧重于从连续的任务流中获取和保留知识,使代理能够通过知识集成和重用逐步构建更复杂的行为。而本次实验团队提出了一个深度强化学习框架,它从一系列任务中不断积累知识,展示了类似人类的终身学习能力。

在 LRL 框架中,可以通过可视化和统计的角度分析知识管理。知识空间中的非参数模型通过创建或合并组件来动态调整以适应新的任务输入,从而确保持续的知识保存,而无需先验知识量。从数量上讲,代理的成功率随着时间的推移而提高,证明了 LRL 中的有效知识积累。

框架 LEGION 在终身学习期间,擅长在贝叶斯非参数知识空间中保存知识和推断新任务。使用语言嵌入来帮助任务推理,代理可以有效地执行长期任务,展示基于积累的知识处理复杂任务的灵活性。

研发团队表示,使用非参数知识空间从一系列任务中不断学习和保留技能的能力,结合扩散模型的平滑和稳定的下游动作输出,可以为开发广泛适用的大型行为模型提供更加强大的动力。

此外,由于他们工作的假设方向,还有另一个有前途的探索方向,即使用 LLM 在终身学习过程中不断完善奖励。

论文链接:https://www.nature.com/articles/s42256-025-00983-2

理论强化学习机器人技术南京大学慕尼黑大学算法AI for Science
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增量学习技术

增量学习作为机器学习的一种方法,现阶段得到广泛的关注。对于满足以下条件的学习方法可以定义为增量学习方法: * 可以学习新的信息中的有用信息 * 不需要访问已经用于训练分类器的原始数据 * 对已经学习的知识具有记忆功能 * 在面对新数据中包含的新类别时,可以有效地进行处理

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

智能代理技术

智能代理,或译为智能主体。在人工智能领域,智能代理是指一个可以观察周遭环境并作出行动以达致目标的自主实体。它通常是指一个软件程序。“智能代理”是目前人工智能研究的一个核心概念,统御和联系着各个子领域的研究。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

概念图技术

概念图(CGs)是知识表示的形式主义。 在第一篇关于CG的论文中,John F. Sowa用它们来表示数据库系统中使用的概念模式。 关于CGs的第一本书(Sowa 1984)将它们应用于人工智能、计算机科学和认知科学等广泛的主题。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~