2024/04/30 15:36

具身智能最佳形态是什么？它是通往AGI必由之路？八位头部玩家、学者现身说法

ChatGPT-4 被认为是人工智能技术发展的重要节点，语言大模型之后的多模态大模型初步显现了世界模型的影子。大模型最终将通过硬件与物理世界产生交互。人工智能的应用实现从数字世界到物理世界的扩展，具身智能是非常关键的技术方向。

那么，具身智能应该依循何种发展路径，当前的技术水平处在什么阶段，发展过程中遇到了哪些瓶颈和难题，在应用场景上如何切入，离未来规模应用还有多远，身处在技术变革浪潮中的我们又该何去何从？

4 月 27 日，北京智源人工智能研究院院长王仲远在中关村论坛年会未来「人工智能先锋论坛」上，和七位具身智能领域的企业创始人、技术负责人和专家展开了一场关于具身智能的深度对话。

这七位嘉宾分别是星动纪元创始人陈建宇，傅利叶智能创始人兼 CEO 顾捷，智元机器人联合创始人、上海人工智能研究院院长宋海涛，银河通用机器人创始人、智源具身智能研究中心负责人王鹤，宇树科技创始人兼 CEO 王兴兴，小米机器人团队负责人许多，ACM 会士李航。他们打造了目前中国具身智能领域最具有代表性的技术和产品。

十个问题，十次思辨。关于具身智能的现在与未来，跃然眼前。

01 AGI 必须通过具身智能实现吗？

王仲远：过去一年大模型技术的发展让我相信 AGI 很可能会到来，有观点认为，当然也包括我，AGI 很可能在未来 5-20 年实现。那么，AGI 必须通过具身智能才能实现吗？

李航：我们定义 AGI 的通用能力，往往是功能角度。通用人工智能一定会实现是有前提的，也就是要有任务和相应的评测标准。在这样的条件下我们一定能开发出，无论是软件还是硬件，达到或者超过人的能力的人工智能。

但人类智能至少有三个重要的特点是 AGI 未必能涵盖的，也就是情感、创造力和自有意志。

具身智能，硬件、软件结合，未来的发展空间非常大。能够瞄准 AGI 方向，完成更多的不仅是数字空间，还有物理世界的任务，相信未来能够达到或超过人的能力。

具身智能有三个重要的特点。第一，机器人或者智能体有自主性；第二，能够根据环境的交互积累经验，每个机器人、智能体，基于不同数据构建不同的模型，产生不同的智能，在完成任务上更加智能。第三，进入物理世界一定是多模态的，人有五观有五感，未来具身智能机器人应该能够结合多模态技术不断演进、完成智能性任务。

陈建宇：我认为通过具身智能实现 AGI 非常可能。AGI 具身智能不光具备语言能力，还有图像处理能力，控制身体的能力。人类身体，本身对促进智能发育有重要的意义。基于身体与社会的各种交互实现对世界的探索和认知。

王鹤：具身智能与非具身智能非常互补，他们的全集才是 AGI。中国老话说「读万卷书、行万里路」。现在，互联网海量的图文信息，本质是读万卷书的过程。但读万卷书无法替代行万里路，人在真实世界劳作不可能通过读书、看图、看视频而替代。具身智能赋予与物理世界的交互能力，这个能力是通过看书、看图数字世界的典型数据模态和经验无法获得的。

宋海涛：我认为通往 AGI 的道路非常漫长，因为人类文明史记载五千年，这需要全社会进行大模型语料库的建设，进行千亿、万亿级训练。建立各行各业的大模型以后，逐步迈向具身智能，这是漫长的过程。

02 具身智能一定是人形机器人吗？

王仲远：具身智能一定通过人形机器人来实现吗？或者具身智能本体必须是双足吗？

顾捷：在硅谷已有共识，具身智能的最终形态就是人形，但是高矮胖瘦，用什么驱动很难统一，人的形态已开始做收敛，在朝这个方向努力。

王兴兴：对于具身智能或者 AGI，机器人的形态不是特别重要，但是人形机器人是社会公认比较理想的形态。如果做数据采集，它可以去人生活的各种地方，跟人做一样的动作，比如开车、散步、跟人交互，采集更多数据，这样跟机器人对话、交互，更加接近真实人类交流的水平。当下做具身智能人形机器人是相对最适合的路径，但不是唯一路径。最适合的路径可能是效率比较高的方法。

许多：机器人最终可用，要做到四个可达。第一，移动可达，想让它去哪里就去哪里，包括避障；第二，操作可达，能抓什么就可以抓什么，或者把一个物品放在指定位置。第三，语义可达，比如拿苹果是为了榨汁。第四，价值和智慧可达。当我们把四个目标摆到一起，就会发现人形机器人是我们可以想象到的不多的选择。我个人坚信 AGI 可以实现，其本质是能量的转移、储存、发散，而人类生命也一套是能量系统，能量系统是可以实现的，只是多久的问题。

03 先发展硬件还是软件？

王仲远：具身智能是系统的工程，既涉及硬件也涉及软件，目前硬件和软件发展速度上显然有一些不匹配。大模型能思考，但是指挥不动本体，指挥不动硬件。这是先有鸡还是先有蛋的问题，我们到底是先让硬件达到一定水平才能迎来具身智能的蓬勃发展，还是脱离本体独立分开发展具身智能？

顾捷：这好比先有 APP 还是先有智能手机。先让智能手机打电话，有开放平台、开放接口，收集数据，再做 AI。对具身智能来说，本身身体还不够结实，能完成的任务很少，在这个基础上做具身智能开发相对难度比较大。当然本体和大脑是互相制约的，本体开发很好，大脑没有达到水准，应用场景也会受到制约。先从本体迭代切入点，再加入基本应用，达到一定程度后，本体做比较大的收敛，然后应用才会开始蓬勃发展。

王兴兴：我认为有实体的具身智能是实现 AGI 的唯一途径，目前脱离实体的大语言模型对物理世界的理解是不够的，这也是为什么很多顶尖 AI 学者提出要做世界模型。特斯拉无人驾驶也是采集真实数据训练，而不是使用虚拟数据，因为虚拟数据中实时与物理世界交互的数据太少。我觉得本体反而是实现 AGI 非常重要的渠道，AGI 很可能诞生在机器人公司。

04 数据先行还是能力先行？

王仲远：现在大模型技术路线还是依靠海量的数据，像 ChatGPT3.5、ChatGPT4，基本把人类所有数据读了一遍，数据在具身智能里毋庸置疑非常关键的，是数据先行，还是先有本体，有能力完成具体工作？

李航：需要迭代，先有硬件，然后有数据，建模型形成闭环，促进智能体机器人的发展。从行业来说，某一个阶段应该软件硬件一起往前推进优化，PC、手机发展的历史也是这样。从研究层面，团队有不同的侧重，可能聚焦软件方面，也可能聚焦硬件方面，也可能两方面都做，是未来若干年能够看到的一个趋势。

05 真实数据 or 仿真数据

王仲远：具身智能和无人驾驶不同之处在于无人驾驶整体上是特定的场景，但是具身智能尤其具身机器人要解决的场景数特别多，比如有家庭的场景、流水线的场景，场景的数量多到一定程度之后，数据采集是否容易成为现实，现在研究上有很多基于仿真数据进行模型训练、机器人训练。怎么看真实数据和仿真数据两条技术路线？

王鹤：当今数据是智能的重要推动力，具身智能最大的瓶颈就是缺乏数据。自动驾驶以特斯拉 FSD 为代表的技术，充分利用特斯拉百万车主上亿小时的驾驶数据进行模仿学习。人形机器人是否存在这样的数据呢？非常可惜不存在。因为不可能有上百万群众自发愿意买一个没有什么功能的机器人到家里，用摇控器指挥机器人干事情。所以，在这个阶段具身智能数据需要零到一的突破，这个零到一的突破靠我们遥控显然有点远水解不了近渴。

现在最实际的方式通过物理仿真，把现实世界物理规律通过图形学的引擎，真实仿真摩擦力、接触力、还有光线追踪渲染等，制造一个模拟真实世界训练的数字训练世界，这也是英伟达系列工作背后的初衷。

我的看法是，具身智能从零到一，很有可能完全靠仿真数据驱动。今天很多人形机器人的强化学习，也是主要在仿真世界进行的，但是未来当这样机器人充分在我们世界中存在，有车这样的存量的时候，形成了在真实世界交互的数据闭环，最终将成为具身智能的源头活水，真正释放出更多能力。

陈建宇：仿真的优势是非常快，靠英伟达的 GPU，如果做得好，一天的时间采集的数据可能相当于真实世界的上百万年的数据。但仿真难以非常准确地搭建很复杂的场景。在真实的世界采集数据，可以比较方便搭出复杂的场景，但是受限于采集数据的速率，无法倍速。在前期智能性还不足以解决非常复杂场景的时候，可以先通过仿真做简单的场景，快速地获取数据，让机器人具备一些能力。当机器人的能力逐步增进能够做复杂场景时，就需要更多地往真实世界采集数据。

06 短期高估与长期低估

王仲远：过去这一段时间，具身智能这个话题确实特别热，产业界也逐步进入到具身智能更大的领域。我们有时候会高估一年达到技术的突破，但是又低估 10 年技术达到的高度。怎么看具身智能在短期和长期的一些可能性？

宋海涛：我们一直推崇前端研发过程中的三个真实：一是基于真实的场景；二是基于真实的重大工程问题；三是基于真实的数据。

在具身智能这个方向，我们认为未来 3-5 年是一个逐步的渗透期。但是大规模的商业上量取决于几个核心因素：一是数据，无论是家居、生产、装备制造，还是智元探索的汽车工厂、3C、生物试验室，这些高质量的数据集和语料库是大量缺失的，当然我们大量一线的科研人员已经带着传感器在很多的整车厂积累真实场景和数据，但是需要一定的周期和时间；二是数字基座，在整个构建过程当中，需要一个新兴的数字基础底座，尤其是算力 + 基础的训练框架。未来 5-8 年之后会有一个快速的上量的过程。

许多：有一个观点我非常赞同，就是今天真正存在的问题是硬件的问题。今天机器人在移动空间的可达精度大概是 10 厘米，小车好一点，可达精度大概在 5 厘米。10 厘米的精度会导致移动抓取物体的时候，相对位置关系定位不准。5 厘米和 10 厘米，对上肢的要求完全不一样。上肢的精度现在大概在厘米级，而工业臂处在 0.01 毫米级别，两者差距还是非常大。

硬件在移动空间可达怎么做到 1 厘米？手眼协调的空间可达怎么做到 0.1 毫米级别？这个精度实现以后，上层的大模型或者具身智能就能在移动机械臂上大规模收集数据了。现在数据闭环收集的效率太低。短期需要看硬件的突破，远期看是整个数据闭环工程效率的提升。

相信随着大家批量性、集中性在硬件上的投入和改进，短期的发展或许会超过预期。我们在自动驾驶领域也看到了，数据闭环工程的发展周期比我们想得要长。自动驾驶投入这么多年，今年才在 SFD 上看到一些突破性的进展。我认为硬件的进步会超出想象，但是数据闭环、工程的进步速度或许会比想得要慢。

07 自动驾驶与具身智能

王仲远：我在过去一段时间的调研发现，不少做具身智能的专家学者是从自动驾驶这个领域转过来的，从现有的功能模块来看，确实两者有非常相似的地方，都包含环境的感知、规划决策以及最终的控制几个模块。但是我们也看到，特斯拉通过电动车收集的海量驾驶数据之后，开始训练了端到端的自动驾驶大模型，使得它很有可能实现真正意义上的 L4，甚至更高层级的无人驾驶水平。对这个问题怎么看？

陈建宇：我从 2015 年开始做自动驾驶，当时最主要的是两个问题。第一，直接开始做 L4，认为 2-3 年能解决，但实际远比想象的要困难。第二，当时的 AI 还没发展到一个阶段，大模型都没出现，关于决策、执行和控制也都是用相对传统的方法。这导致自动驾驶的发展经历了一段时间的曲折。现在自动驾驶领域，特斯拉应该是最好的一个标杆。特斯拉成功避开了这两个问题，采取的是 L2、L3、L4 渐进式发展。

具身智能也一样，不要一上来就做家用机器人走进千家万户，而是考虑先从工厂这种容易的场景任务开始。另外，要坚定地拥抱 AI，拥抱具身智能的方法。

08 互联网大厂 VS 创业公司

王仲远：在整个具身智能的发展过程中，是大厂会更具有优势？还是创业企业更具有优势？

许多：大家的起点都是一样的，没有谁有所谓的优势，取决于目标选择。比如，小米做硬件比较多，所以我们的目标选择本质上是偏底层，解决移动空间可达和操作空间的可达。我们的目标是移动空间可达 1 厘米，操作的空间可达 0.1 毫米级别。我们在上层的目标会稍微放慢一点。加上上层目标之后，会瞄准复杂长序列任务的处置闭环，包括数据流格式、训练和模型管理方法，会把这一整套都建立起来，这是我们的路径。大家站的起点一样，就看目标和方式选择，能坚持多久，这最终决定了能走多远。

王兴兴：大家的起点差不多，AI 的世界还是非常平等的。具身智能这个领域还没有突破临界点，虽然每天、每个月都有明显的进步。在这种前沿的领域，大家都在做，可能有一个天才带领小团队做出来，也可能美国的互联网大公司做出来，都有可能。

李航：我同意大家的观点，大公司和创业公司各有自己的特点，优势和劣势也都有，那些都相对不重要，更重要的是团队和整体技术。

09 具身智能未来预测

王仲远：具身智能最有可能落地的场景以及可能的时间点是什么？

陈建宇：会先在一些偏工业类的场景落地，因为可以排除人这个最大的不确定性因素。如何应对与人交流过程中的不确定性以及在这种情况下保证安全，对于现在来说非常困难。工业类的场景，可以在一个相对受限的结构和可预测的场景发挥能力，3-5 年可以有比较规模化的状态。如果是跟人比较密集的接触，不管是各种服务还有家庭机器人，可能需要更长的时间。

顾捷：人形机器人要完成真正意义上的通用型任务。举个例子，开门。门可能就有一万种，推的、拉的、玻璃的、卷帘的，各种各样的门。如果能够产生泛化性，人形机器人或者具身形态的机器人会出现一个突破点的飙升，从一个细分的市场成为一个通用的大场景。

很难预测是什么时候，在这个之前可能还是一些比较细分的窄的市场。比如，康复医院做治疗师，辅助人类做康复训练，在养老院做陪护，或者在一些危险的地方巡逻，这些比较细分的领域。

宋海涛：我们最近在工业制造、3C 特种领域都开始了一些真实的数据和场景的实测。真正的商用有三个特点：一是，大规模商用要具备一个容错度较高的环境；二是，公众的感知度比较强；三是，最终的场景买单能力比较强，这些才能提供下一步的重点爆发。

王鹤：这个问题可以从机器人有哪些能力，产品到底卖多少钱，客户付费意愿三个角度思考。从能力的角度来讲，基于合成大数据，我判断在今年或者明年将会出现能做拿、取、放的通用大模型。这样的能力其实在很多行业里都有，那么，我们的机器人要卖多少钱市场才能接受？现在判断，短期内用轮式底盘，不需要双腿，一个最廉价的机器人形态，成本要低于一个劳动力一年的工资。我们目前与某些车厂和商超环境在推进合作，预计 1-2 年能够起量。

王兴兴：目前公认的工业领域落地更加方便，主要是场景相对固定，付费能力较高。一台设备哪怕几十万，只要真正能干活，市场也能接受。另外，我们现在做的是通用 AI 或者通用具身智能，如果能在很多工厂做一些生产装配，那么，基本可以复制到家庭。因为我一直觉得，生产装配跟洗衣做饭或者烧菜没有本质差别，泛用性还是非常强的。

许多：我建议从两个角度考虑，一是精度，二是语义的富集程度。先是低语义富集程度、低精度的场景落地，比如To G 的纯粹引导机器人，慢慢到中高精度、语义富集程度的工业场景，最后向更高的服务场景迈进。

服务场景最大的难点是语义太富集了，比如，机器人帮我换一个灯泡，灯泡在哪里，找灯泡可能就需要找 1-2 个小时，根本就无法完成服务闭环。

李航：未来还是先在 To B 工业这种场景落地，终极目标是 To C 希望能进家庭。To B 工业场景中简单、重复性的工作比较多，适合在技术演进过程中先落地，产生商业价值，然后推动整个行业发展。To C 家庭场景中很多的具体任务，重复性不高，且多样性非常大，带来的价值相对来说反而不高，结果价格还非常高，商业化比较困难。所以一步步来，从工业界开始做起是一个好的整个行业发展的路径。

10 青年寄语

王仲远：具身智能是具有划时代意义的一个技术方向，但是一个行业的发展需要越来越多的人加入，才能把这个行业做大。因此，对所有有志于从事具身智能的青年学生、青年学者或者工程师有哪些寄语？

李航：有人说 20 世纪是计算机的时代，21 世纪很有可能就是人工智能的时代。其中，具身智能应该是这个时代里最具代表性的技术领域。整个 21 世纪，具身智能至少占其中一半，AGI 离不开身体。大家如果感兴趣从事这个行业各个方面的工作，非常好。

许多：我就是一句话，找准切入点，勇敢加入，和大家一块 Go，因为刚刚开始！

王兴兴：AI 是目前最激动人心的时代，回望过去人类的几千年或者几百年历史，当下真的是非常好的时间点，资源、关注度、财力、人员、技术，已经快突破临界点，真的非常激动人心。我非常鼓励所有的人学 AI，去编程，去尝试！

王鹤：非具身的大模型，比如 GPT-4、Sora 是千亿的市场，现在的具身大模型，唯一有的 Robotaix，是几千亿的自动驾驶市场，替代的是司机的行为，能替代人的具身大模型应当是多大的市场？万亿以上。欢迎大家加入。

宋海涛：全球 80 亿人口，核心的生产力创造还是来自于我们的智慧群体，仅仅是完成全球的生产力创造，我们至少需要 100 亿台人形机器人。马斯克讲的，征服浩瀚宇宙，一千亿台人形机器人在等着我们。这个市场空间足够大，我们能做的就是仰望星空，但是脚踏实地，未来已来，等待大家一起去协作创造！

顾捷：人形机器人、AGI 都需要有信仰，现在大量的人才有机会投身于这个行业，非常激动人心，呼吁更多的人参与。20 年前做机器人比赛的时候喜欢这件事情，但是现在是最好的时刻。

陈建宇：未来一定会迎来非常大的具身智能和机器人的时代，它会影响千行百业。在这个基础之上，大家有两个选择，一是直接投身做具身智能，二是所在的行业拥抱具身智能。

可以看到，具身智能是一个具有划时代意义的技术，大幕刚刚开启，让我们共同期待具身智能的无限未来，相约 6 月 14 日智源大会，继续关注具身智能的技术讨论与成果分享。

产业北京智源人工智能研究院人工智能先锋论坛