Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

具身智能是实现通用人工智能的必经之路,其核心是通过智能体与数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多智能体与具身智能研究所联合中山大学 HCP 实验室的研究人员,对具身智能的最新进展进行了全面解析,推出了多模态大模型时代的全球首篇具身智能综述。

该综述调研了近 400 篇文献,从多个维度对具身智能的研究进行了全面解析。该综述首先介绍了一些具有代表性的具身机器人和具身仿真平台,深入分析了其研究重点和局限性。接着,透彻解析了四个主要研究内容:1) 具身感知,2) 具身交互,3) 具身智能体和 4) 虚拟到现实的迁移,这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外,该综述还探讨了数字空间和物理世界中具身智能体面临的挑战,强调其在动态数字和物理环境中主动交互的重要性。最后,该综述总结了具身智能的挑战和局限,并讨论了其未来的潜在方向。本综述希望能够为具身智能研究提供基础性参考,并推动相关技术创新。此外,该综述还在 Github 发布了具身智能 paper list,相关的论文和代码仓库将持续更新,欢迎关注。

图片

  • 论文地址: https://arxiv.org/pdf/2407.06886
  • 具身智能 Paper List: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. 具身智能的前世今生

具身智能的概念最初由艾伦・图灵在 1950 年建立的具身图灵测试中提出,旨在确定智能体是否能显示出不仅限于解决虚拟环境(数字空间)中抽象问题的智能(智能体是具身智能的基础,存在于数字空间和物理世界中,并以各种实体的形式具象化,这些实体不仅包括机器人,还包括其他设备。),还能应对物理世界的复杂性和不可预测性。因此,具身智能的发展被视为一条实现通用人工智能的基本途径。深入探讨具身智能的复杂性、评估其当前的发展现状并思考其未来的发展轨迹显得尤为重要。如今,具身智能涵盖了计算机视觉自然语言处理机器人技术等多个关键技术,其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中,具身智能体必须充分理解语言指令中的人类意图,积极主动探索周围环境,全面感知来自虚拟和物理环境的多模态元素,并执行适当的操作以完成复杂任务。多模态模型的快速进展展示了在复杂环境中相较于传统深度强化学习方法更强的多样性、灵活性和泛化能力。最先进的视觉编码器预训练的视觉表示提供了对物体类别、姿态和几何形状的精确估计,使具身模型能够全面感知复杂和动态的环境。强大的大语言模型使机器人更好地理解人类的语言指令并为具身机器人对齐视觉和语言表示提供了可行的方法。世界模型展示了显著的模拟能力和对物理定律的良好理解,使具身模型能够全面理解物理和真实环境。这些进展使具身智能体能够全面感知复杂环境,自然地与人类互动,并可靠地执行任务。下图展示了具身智能体的典型架构。

图片

                               具身智能体框架

在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1)具身机器人 —— 具身智能在物理世界中的硬件方案;(2)具身仿真平台 —— 高效且安全地训练具身智能体的数字空间;(3)具身感知 —— 主动感知 3D 空间并综合多种感官模态;(4)具身交互 —— 有效合理地与环境进行交互甚至改变环境以完成指定任务;(5)具身智能体 —— 利用多模态大模型理解抽象指令并将其拆分为一系列子任务再逐步完成;(6)虚拟到现实的迁移 —— 将数字空间中学习到的技能迁移泛化到物理世界中。下图展示了具身智能从数字空间到物理世界所涵盖的体系框架。本综述旨在提供具身智能的全面背景知识、研究趋势和技术见解。

图片

                             本综述整体架构

2. 具身机器人

具身智能体积极与物理环境互动,涵盖了广泛的具身形态,包括机器人、智能家电、智能眼镜和自动驾驶车辆等。其中,机器人作为最突出的具身形态之一,备受关注。根据不同的应用场景,机器人被设计成各种形式,以充分利用其硬件特性来完成特定任务。如下图所示,具身机器人一般可分为:(1)固定基座型机器人,如机械臂,常应用在实验室自动化合成、教育、工业等领域中;(2)轮式机器人,因高效的机动性而闻名,广泛应用于物流、仓储和安全检查;(3)履带机器人,具有强大的越野能力和机动性,在农业、建筑和灾难场景的应对方面显示出潜力;(4)四足机器人,以其稳定性和适应性而闻名,非常适合复杂地形的探测、救援任务和军事应用。(5)人形机器人,以其灵巧手为关键,在服务业、医疗保健和协作环境等领域广泛应用。(6)仿生机器人,通过模拟自然生物的有效运动和功能,在复杂和动态的环境中执行任务。

图片

                                                         不同形态的具身机器人

3. 具身智能仿真平台

具身智能仿真平台对于具身智能至关重要,因为它们提供了成本效益高的实验手段,能够通过模拟潜在的危险场景来确保安全,具有在多样环境中进行测试的可扩展性,具备快速原型设计能力,能够为更广泛的研究群体提供便利,提供用于精确研究的可控环境,生成用于训练和评估的数据,并提供算法比较的标准化基准。为了使智能体能够与环境互动,必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。如下图所示,本综述将对两种仿真平台进行分析:基于底层仿真的通用平台和基于真实场景的仿真平台。

图片

                               通用仿真平台

图片

                              基于真实场景的仿真平台

4. 具身感知

未来视觉感知的 “北极星” 是以具身为中心的视觉推理和社会智能。如下图所示,不同于仅仅识别图像中的物体,具有具身感知能力的智能体必须在物理世界中移动并与环境互动,这需要对三维空间和动态环境有更透彻的理解。具身感知需要具备视觉感知和推理能力,理解场景中的三维关系,并基于视觉信息预测和执行复杂任务。该综述从主动视觉感知、3D 视觉定位、视觉语言导航、非视觉感知(触觉传感器)等方面进行介绍。

图片

                               主动视觉感知框架

5. 具身交互

具身交互指的是智能体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答和具身抓取。如下图所示,在具身问答任务中,智能体需要从第一人称视角探索环境,以收集回答问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采取哪些行动来探索环境,还需决定何时停止探索以回答问题,如下图所示。

图片

                                 具身问答框架

除了与人类进行问答交互外,具身交互还涉及基于人类指令执行操作,例如抓取和放置物体,从而完成智能体、人类和物体之间的交互。如图所示,具身抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型(如大语言模型和视觉语言基础模型)相结合,使智能体能够在多感官感知下执行抓取任务,包括视觉主动感知、语言理解和推理。

图片

                              语言引导的交互式抓取框架

6. 具身智能体

智能体被定义为能够感知环境并采取行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智能体在实际场景中的应用。当这些基于多模态大模型的智能体被具身化为物理实体时,它们能够有效地将其能力从虚拟空间转移到物理世界,从而成为具身智能体。为了使具身智能体在信息丰富且复杂的现实世界中运行,它们已经被开发出强大的多模态感知、交互和规划能力。如下图所示,为了完成任务,具身智能体通常涉及以下过程:

(1)将抽象而复杂的任务分解为具体的子任务,即高层次的具身任务规划
(2)通过有效利用具身感知和具身交互模型,或利用基础模型的策略功能,逐步实施这些子任务,这被称为低层次的具身行动规划

值得注意的是,任务规划涉及在行动前进行思考,因此通常在数字空间中考虑。相比之下,行动规划必须考虑与环境的有效互动,并将这些信息反馈给任务规划器以调整任务规划。因此,对于具身智能体来说,将其能力从数字空间对齐并推广到物理世界至关重要。

图片

                               基于多模态大模型的具身智能体框架

7. 虚拟到现实的迁移

具身智能中的虚拟到现实的迁移(Sim-to-Real adaptation)指的是将模拟环境(数字空间)中学习到的能力或行为转移到现实世界(物理世界)中的过程。该过程包括验证和改进在仿真中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中表现得稳定可靠。为了实现仿真到现实的适应,具身世界模型、数据收集与训练方法以及具身控制算法是三个关键要素,下图展示了五种不同的 Sim-to-Real 范式。

图片

                              五种虚拟到现实的迁移方案

8. 挑战与未来发展方向

尽管具身智能发展迅速,但它面临着一些挑战,并呈现出令人兴奋的未来方向:

(1)高质量机器人数据集。获取足够的真实世界机器人数据仍然是一个重大挑战。收集这些数据既耗时又耗费资源。单纯依靠模拟数据会加剧仿真到现实的差距问题。创建多样化的真实世界机器人数据集需要各个机构之间紧密且广泛的合作。此外,开发更真实和高效的模拟器对于提高模拟数据的质量至关重要。为了构建能够在机器人领域实现跨场景和跨任务应用的通用具身模型,必须构建大规模数据集,利用高质量的模拟环境数据来辅助真实世界的数据。

(2)人类示范数据的有效利用。高效利用人类演示数据包括利用人类展示的动作和行为来训练和改进机器人系统。这个过程包括收集、处理和从大规模、高质量的数据集中学习,其中人类执行机器人需要学习的任务。因此,重要的是有效利用大量非结构化、多标签和多模态的人类演示数据结合动作标签数据来训练具身模型,使其能够在相对较短的时间内学习各种任务。通过高效利用人类演示数据,机器人系统可以实现更高水平的性能和适应性,使其更能在动态环境中执行复杂任务。

(3)复杂环境认知。复杂环境认知是指具身智能体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。对于非结构化的开放环境,目前的工作通常依赖预训练的 LLM 的任务分解机制,利用广泛的常识知识进行简单任务规划,但缺乏具体场景理解。增强知识转移和在复杂环境中的泛化能力是至关重要的。一个真正多功能的机器人系统应该能够理解并执行自然语言指令,跨越各种不同和未见过的场景。这需要开发适应性强且可扩展的具身智能体架构。

(4)长程任务执行。执行单个指令通常涉及机器人执行长程任务,例如 “打扫厨房” 这样的命令,包含重新排列物品、扫地、擦桌子等活动。成功完成这些任务需要机器人能够规划并执行一系列低级别动作,且持续较长时间。尽管当前的高级任务规划器已显示出初步的成功,但由于缺乏对具身任务的调整,它们在多样化场景中往往显得不足。解决这一挑战需要开发具备强大感知能力和大量常识知识的高效规划器。

(5)因果关系发现。现有的数据驱动的具身智能体基于数据内部的相关性做出决策。然而,这种建模方法无法使模型真正理解知识、行为和环境之间的因果关系,导致策略存在偏差。这使得它们难以在现实世界环境中以可解释、稳健和可靠的方式运行。因此,具身智能体需要以世界知识为驱动,具备自主的因果推理能力。

(6)持续学习。在机器人应用中,持续学习对于在多样化环境中部署机器人学习策略至关重要,但这一领域仍未被充分探索。虽然一些最新研究已经探讨了持续学习的子主题,如增量学习、快速运动适应和人机互动学习,但这些解决方案通常针对单一任务或平台设计,尚未考虑基础模型。开放的研究问题和可行的方法包括:1) 在最新数据上进行微调时混合不同比例的先前数据分布,以缓解灾难性遗忘,2) 从先前分布或课程中开发有效的原型,用于新任务的推理学习,3) 提高在线学习算法的训练稳定性和样本效率,4) 确定将大容量模型无缝集成到控制框架中的原则性方法,可能通过分层学习或慢 - 快控制,实现实时推理。

(7)统一评估基准。尽管有许多基准用于评估低级控制策略,但它们在评估技能方面常常存在显著差异。此外,这些基准中包含的物体和场景通常受到模拟器限制。为了全面评估具身模型,需要使用逼真的模拟器涵盖多种技能的基准。在高级任务规划方面,许多基准通过问答任务评估规划能力。然而,更理想的方法是综合评估高级任务规划器和低级控制策略的执行能力,特别是在执行长时间任务和衡量成功率方面,而不仅仅依赖于对规划器的单独评估。这种综合方法能够更全面地评估具身智能系统的能力。

总之,具身智能使智能体能够感知、认知并与数字空间和物理世界中的各种物体互动,显示了其在实现通用人工智能方面的重要意义。本综述全面回顾了具身机器人、具身仿真平台、具身感知、具身交互、具身智能体、虚拟到现实的机器人控制以及未来的研究方向,这对沿着促进具身智能的发展具有重要意义。

关于鹏城实验室多智能体与具身智能研究所

隶属鹏城实验室的多智能体与具身智能研究所汇聚了数十名智能科学与机器人领域顶尖青年科学家,依托鹏城云脑、中国算力网等自主可控 AI 基础设施,致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、社会治理与服务等重大应用需求。
理论鹏城实验室具身智能
4
相关数据
增量学习技术

增量学习作为机器学习的一种方法,现阶段得到广泛的关注。对于满足以下条件的学习方法可以定义为增量学习方法: * 可以学习新的信息中的有用信息 * 不需要访问已经用于训练分类器的原始数据 * 对已经学习的知识具有记忆功能 * 在面对新数据中包含的新类别时,可以有效地进行处理

范数技术

范数(norm),是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

在线学习技术

在计算机科学中,在线学习是一种机器学习方法。和立即对整个训练数据集进行学习的批处理学习技术相反,在线学习的数据按顺序可用,并在每个步骤使用未来数据更新最佳预测器。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
视觉语言导航技术

视觉语言导航(VLN)是指在真实的3D环境中引导智能体执行自然语言指令的任务。

视觉推理技术

视觉推理是指为了得出某个结论而操纵一个人对一个物体的心理印象的过程。

推荐文章
暂无评论
暂无评论~