Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

让AI进入物理世界,首届中国具身智能大会展望智能新纪元

前不久,图灵奖得主Yann Lecun在Lex Fridman的播客中讲道:机器人行业的兴起已经等待了 10、20 年,而这个行业的发展要寄希望于AI的进步。

AI 发展可谓是瞬息万变。科技巨头们不是抢占时机,比谁先发布,就是猛攻质量,比性能优劣。2022 年还被称为 AIGC 元年,而 2024 年,就已经来到了具身智能元年。

何为具身智能?先不谈定义,看看下面这些展示,你有属于自己的理解吗?

图片

图片图片图片

具身智能其实是基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

以上展示来自 3 月 30-31 日上海徐汇西岸举办的首届中国具身智能大会(China Embodied AI Conference,CEAI)场外。作为人工智能与人形机器人两大前沿技术的结合,具身智能产业是新质生产力的重要组成部分。在这场大会上可以看到具身智能的最新发展方向,也给产、学、研三方带来共同讨论的机会。9 场主旨演讲报告和 14 个专题论坛生动讲述了具身智能的定义、重要性以及发展态势,让参会者能够切身感受到具身智能就在身边,并正在兴起。

图片

                               2024 中国具身智能大会现场

人工智能的缺憾:数字 AI 与物理世界的距离

中国工程院院士、中国具身智能大会大会主席蒋昌俊表示,以 OpenAI 为代表的企业通过生成式无监督预训练,利用大量互联网文本和图像数据,构建了如 ChatGPT 和 GPT-4 这样的大语言模型。这些模型首次展示了 AI 解决多种任务的能力,跨越了领域限制,让我们窥见了实现通用人工智能的潜力。虽然像 ChatGPT 这样的大模型已展现出处理多模态数据和满足人类需求的交互能力,但这种交互仍然局限于数字世界。要实现真正的通用人工智能,我们需要赋予它们在真实物理世界中的交互能力。这就意味着 AI 需要拥有实体,让它们像人类一样具备感知、思考和行动的能力。

图片

                                 蒋昌俊在中国具身智能大会开幕式上讲话

由此可见,具身智能不仅是机器学习自然语言处理计算机视觉等技术的集成应用,它还能将物理世界通过传感器映射到数字世界中,并以此来链接二者,让 AI 真的能够在物理世界中有所作为。

大模型强大的通用能力已经显现:上下文对话、生成创作、代码、逻辑推理、计算等多个方面都能够轻松拿捏。但是如何将这样的能力拓展到更多应用上呢?在本次大会的大模型与具身智能专题论坛中,上海人工智能实验室双聘领军科学家代季峰表示,首先要将研究目标设定为多模态通用模型,这样才能为大语言模型装上手脚和眼睛,与现实世界交互。

和物理世界连接,需要「身」的存在

你对机器人应用的了解还停留在哪里?是会做家务的斯坦福机器人,还是已经能进厂打工的 Atlas。这些和我们生活密切相关的机器人似乎更能吸引注意,但是在你注意不到的地方,机器人还发挥着你想象不到的功能。

例如在遥远的太空中,机器人仍然有着它们的大放异彩的时候。面对极端环境条件,复杂任务,机器人帮助人类做了很多做不了的事情。在农业方面,机器人能够帮助人类施肥、洒药、收割;制造的逆过程,如动力电池拆解也是具身智能一个巨大的产业场景;建筑行业的搬运与基本工作它们也能够发挥作用。

这就要求,它们既需要有解决任务的聪明「头脑」,还有能够精准操作的「身体」。正如英国皇家工程院院士、南方科技大学机器人研究院院长戴建生所说,智能要实现和物理世界的联合,就需要具身的这个「身」。

除了应用场景的局限,你对机器人形态的想象是不是也有些局限。除了不同用途的机器人形态不同,你有没有想过同一个机器人也能像变形金刚一样变化不同的形态。

在大会主旨演讲报告中,戴建生向参会者介绍了「变胞机器人」。在现场,他放出一张《变形金刚》剧照,讲述了机器人与汽车结构互换带来的思考:我们的机器人能不能在不同的情况下进行形态上的转变?身体形态会影响虚拟生物在复杂环境的适应学习能力,而相应的,复杂环境也对促进虚拟生物在形态和智能上的进化。

进化机器人的发展共有四个阶段:进化机构、智变机构、机构变异、变胞机构。而变胞机器人开创了具身智能的「环境适应身体」:根据环境自主改变结构,调整模态,实时进化。

图片

                               现场视频展示,机器人形态多变,适应不同场景

这样的变胞机理可以实现一机多能的目标。不过,它还有非常重要的前提,如多传感器信息融合、导航与定位、路径规划、机器人视觉等。其中,在视觉和听觉都比较发达的机器人感知系统之外,触觉也是一个新兴的传感方面的赋能节点,这意味着传感器的发展有着新的方向。毕竟,在精细工作中,准确的力度、角度、姿势都将决定任务的成败。

具身智能产业在快速发展的同时,在成果转化、应用场景、商业模式等方面还有待完善。针对业界广泛关注的共性问题,本次大会邀请了全球具身智能领域的顶尖专家分享行业最前沿的智慧和经验。与会专家围绕具身智能的前沿科学问题、应用场景、竞争格局、发展前景等展开热议。智慧时代,未来已来,一幅软件和硬件双向奔赴、相互赋能的生动图景正在徐徐拉开。
产业中国具身智能大会具身智能
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

路径规划技术

路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线被称为路径,构成路径的策略则被称为路径规划。路径规划在很多领域都具有广泛的应用,如机器人的自主无碰行动;无人机的避障突防飞行等。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

Embodied AI 技术

Embodied AI (简称EAI)是一个非常广的词。在上世纪中期,EAI是对许多人工智能领域的统称。与GOFAI(Good Old-Fashioned Artificial Intelligence,译为有效的老式人工智能)不同的是,GOFAI指的是用原始的人工智能方法来解决很小的一个领域的问题,例如棋类游戏类的算法。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~