Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

人形机器人+LLMs=? 答案就在这个2分钟视频里

机器之能报道

编辑:Sia

你可以用自然语言与机器人交谈,并要求它完成一项任务。未来对机器人的控制可能会像骑马,你可以把AI看作是骑手,机器人的物理智能就是马。

图片当生成 AI 被植入数千个系统中时,迟早有一天也会来到人形机器人身上。

不过,Agility Robotics CEO Damion Shelton 最初并不相信它们的双足机器人需要这玩意儿。

就我们的用例而言,还没有让大型语言模型( LLM )控制机器人的需求。客户不需要和自己的机器人进行有趣的对话,他们需要借助机器人的物理原理替代重复性劳作。

当亚马逊于 10 月中旬开始测试 Agility Robotics 的双足机器人Digit 时,这位亮蓝色的自主「打工人」看起来也比实际情况更聪明。

「现实是,机器人还没有自我意识,它们现在甚至没有使用大型语言模型,」 Damion Shelton 当时说道。

仅仅两个月后,情况就发生了变化。

在本周三发布的两分钟「Embodied AI」演示中,升级后的 Digit 顺利完成工程师随意布置的口头任务。

我们很好奇,将这项技术集成到 Digit 中可以实现什么。为此,Agility Robotics 给 Digit 创建了一个演示空间。

视频中,机器人前方排列了四个不同高度的编号塔,身后也有三个不同高度的编号塔。后面的三个编号塔上,各有一个由几个不同特征(颜色、图案还有数字)定义的盒子。

工作人员给 Digit 编码了这些环境信息,但没有编码任何具体任务。接入能理解复杂自然语言命令的 LLM 后,Digit 能否顺利完成随机分配的任务?

视频中,机器人被告知将「达斯维达的光剑」颜色的盒子放到前面最高的塔上。

图片演示视频界面,左下角的叠加层显示了机器人的内心独白,右下角的叠加层显示了物理世界中3D 导航的情况。

Digit 并没有瞬间完成任务,而是深思熟虑地、慢慢进行着。

在 LLM (接受了流行文化参考资料的训练)赋能下,Digit 知道什么是「达斯维达的光剑」。

它会思考 「我应该找出可以使用的命令」,「应该首先评估环境,看看有哪些物品和位置可用」,以及「达斯维达的光剑是红色的,所以,红色的盒子是我需要移动的。」

移动到目标位置后,「我应该把红色盒子拿起来」。「现在有了红色盒子,我应该移动到前排最高的塔的位置,即编码是 4 的塔。」

机器人还知道,前排最高的塔是 4 号塔。「我将首先移动到红色盒子的位置。」

移动到目标位置后,机器人将光剑盒子放到了目标编码塔上。

最后,它宣布工作完成:「我相信我已经完成了任务,因为我已经将达斯维达的光剑颜色的盒子(红色,盒子 2 )移到了前排最高的塔楼(塔 4 )。


Digit 的内在思维全过程

外在物理世界完整的3D导航过程

这个演示表明,LLM 能帮助机器人将抽象的人类命令转化为机器人可以理解的较低级别命令,因此,人们能够用自然语言与 Digit 交谈并要求它执行任务。

这也展示出 LLM 如何增强人形机器人、让它们变得更通用、部署更快。Agility Robotics 表示。这是一种自然的契合,并将 Digit 描述为「 AI 的物理化身」。

这不仅让人想起 Damion Shelton 的一个比喻,他曾将机器人控制比作骑马, 「你可以把更高级的 AI 看作是骑手,机器人的物理智能就是马。」

目前,该公司正准备在俄勒冈州的一家大型生产工厂每年生产 10,000 个 Digit 机器人。

除了与亚马逊的合作之外,该初创公司本月还开始在佐治亚州的 Spanx 配送中心测试其人形机器人。

Agility 表示,公司自主系统能够大幅降低机器人适应新仓库和任务的成本。但 AI 功能将使这一过程变得更快,这意味着,机器人可以部署到更广泛的任务领域,并最终走出仓库。

有关 LLM 应用潜力的尝试是令人兴奋的—— 作为一种商用机器人系统,Digit 要与人类一起工作也需要学会倾听他们的声音。

一些顶尖大学、研究实验室和公司正在探索将更高级的智能形式嫁接到机器人身上,解决现有方法难以解决的复杂机器人问题。

卡耐基梅隆大学机器人学教授 Chris Atkeson 表示,开发人员正陷入一场激烈的竞争,以将最具吸引力、最有能力的智能体推向市场。

「无论谁先脱颖而出……都可能会占据大量市场份额,」他说。

今年早些时候,波士顿动力公司开始使用 ChatGPT 为其四足机器人 Spot 提供语音提示。

丰田研究所也在使用生成式 AI 加速机器人学习,不用改代码,只用较少的案例就能教会机器人更多的任务。到目前为止,他们已经教会机器人 60 种不同的技能。

最近,麻省理工学院 CSAIL 主任 Daniela Rus 也公开了自己的创业项目 Liquid  AI——通过一种新型神经网络结构,即使在移动机器人有限的硬件能力下,也能享受生成 AI 的魔力。

她指出,与模型预测解决方案相比,有了生成式 AI,可以得到更快、更流畅、更像人类的控制解决方案。

她认为,这是非常强大的。未来的机器人的行动不会那么机械,动作会更流畅,就像人类。

参考链接
https://www.youtube.com/watch?v=CnkM0AecxYA

产业LLM亚马逊人形机器人
相关数据
神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

移动机器人技术

移动机器人是一种能够移动的自动机器。移动机器人具有在其环境中移动的能力,并且不固定到一个物理位置。移动机器人可以“自动”主要是指它们能够在没有物理或机电引导装置的情况下导航非受控环境。相比之下,传统的工业机器人或多或少都是固定的(stationary)机械臂或抓取组件。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~