机器之心原创

2024/04/22 11:18

AI Pioneers｜星海图高继扬：人形机器人不是具身智能的唯一答案

人类正在迎来人工智能领域的爆炸式更新，技术向未知拓展的每一步，几乎都引起惊人的关注度。

在人工智能边界扩张的过程中，重要赛道的技术路线创新与分歧并存。技术先锋者的判断和选择，影响着众多跟随者的脚步。

过去一年，机器之心独家率先将月之暗面、生数科技、爱诗科技、无问芯穹等优秀公司介绍给大家，为他们在互联网世界留下了第一份 “万字访谈底稿”。在技术路线尚未收敛的阶段，我们看到了到真正拥有信念、勇气以及系统化认知的 AI 创业者的引领力量。

因此，我们推出 “AI Pioneers” 的专栏，希望继续寻找和纪录 AGI 时代人工智能各细分赛道具有领袖气质的创业者，介绍 AI 赛道最出众、高潜的创业公司，分享他们在 AI 领域最前沿、鲜明的认知。

作者：姜菁玲

机器之心报道

具身智能已经成为人工智能领域最值得期待的一大赛道之一。现在，智能机器人已经可以自主实现咖啡拉花、搬箱子、叠被子，甚至能够像人与人一样通过自然语言交互，理解人类的意图并做出调整。

国内外众多科技公司正在推动机器人变得更加 “智能”，希望它最终可以完成各种任务，能与环境交互感知，拥有自主规划、决策、行动、执行能力。

但以终为始，什么样的路径才有可能推动具身智能产品抵达如此高度的智能？

近期，机器之心对清华系具身智能公司「星海图」进行了访问。

星海图 CEO 高继扬提出了他们的路径想法：对现阶段的具身智能产品而言，代表智能的 “大脑” 比代表执行的 “身体” 更为重要。如果要抵达具身智能的终局，需要针对具体场景推出合适的产品，完成商业闭环，从而得到更多来自物理世界的数据，最终不断提高机器人的 “智能” 程度。

这个说法主要区别于行业中存在的两种其他观点：1、机器人的 “身体” 比 “大脑” 重要；2、应该尽可能直接做一个完整的人形机器人，用它应对大部分场景需求。

需要解释一下的是，到目前为止，在行业内人形机器人仍是一个模糊、宽泛的概念，对它最狭义的定义是完全模仿人类的模样的机器人 —— 有双足、双腿、躯干、头肩、双臂、灵巧手。

星海图认为，在具身智能产品设计中，并非所有人类构型都具备通用性和效率，比如虽然 “双臂” 和 “躯干” 具备，但 “双足” 结构并不具备。因此，他们提出，应该从具体的需求出发，针对场景去做满足需求的高自由度关节型机器人，完整人形有时是不必要的。

同时，这样高度场景化的产品策略，可以机器人尽快实现商业化落地，尽快地从物理世界拿到更多数据，实现飞轮效应，更高效率地提升机器人的 “智能” 水平。

星海图提出了他们的 “一脑多形” 的愿景，他们认为，未来，具身智能产品能够实现用一个智能去匹配不同场景下需要的各种形态的机器人，而完整人形只是其中的一个可能。

星海图成立于 2023 年 5 月，四位联合创始人中，三位出身于清华大学，除 CEO 高继扬毕业于清华大学电子系，联合创始人还包括清华大学交叉信息学院助理教授、MARS Lab 主任赵行，以及清华大学交叉信息学院助理教授、清华大学具身智能实验室主任许华哲。

星海图 CEO 高继扬曾以 3.5 年时间完成美国南加洲大学计算机视觉博士学业，成为 USC IRIS Lab35 历史中最短毕业用时者。博士毕业后，高继扬先后在自动驾驶公司 Waymo 与 Momenta 工作。星海图另一位联合创始人李天威同样来自 Momenta 公司。

目前，星海图已完成千万级美元的融资，参与投资的机构包括 IDG 资本、无限基金 SEE Fund、BV 百度风投、金沙江创投、七熹投资。

1. 从自动驾驶到具身智能

机器之心：你个人的职业经历主要在自动驾驶领域，为什么在去年会想要开始在具身智能领域创业？

高继扬：我读博士是做计算机视觉的，然后毕业之后在 Google 的无人车公司 Waymo 工作两年多，后来回国在 Momenta 干了大概 2 年。

我觉得，其实对于我们这一批人来说是一个自然而然的选择。可能对于外界的人来说，好像自动驾驶和具身智能是两件事，但其实是一件事。

我博士毕业以后，想做的是 “AI + 机器人”。而车其实也是机器人的一种，可以理解为自动驾驶是具身智能在公开道路上的一个应用而已。以特斯拉为代表的自动驾驶公司所做的这一套 FSD 的自动驾驶技术架构方案，其实跟未来具身智能会用到的技术架构基本上是一致的。

然后对于创业这件事，其实我早就计划好了。应该是我大学的时候就想，一直琢磨到底干啥，就是属于我这一代人的机会到底是什么。我上大学那会儿 11~15 年是移动互联网最风生水起的那段时间，当时看着互联网巨头觉得很牛逼，但也明显地感觉到互联网不是我这一代人的机会。

直到大四的时候开始接触到 AI 深度学习，我觉得这个东西特别好、有前途，而且我自己也很感兴趣，觉得这是能够彻底改变世界的，因为它跟互联网不一样，互联网是改变了生产关系，而 AI 让生产力再次得到提高。

所以后来就去做这个方向的博士研究。Waymo 和 Momenta 的两段经历让我觉得自己为创业的准备基本已经做好了，第一有足够的技术积累，然后产品怎么做，团队怎么管理，都有一定的经验了。我觉得就在那个时间点，内部环境和外部都 OK 了。23 年 5 月我就提了离职，6 月底正式离职，然后 8 月初开始融资，11 月份首轮融资就完成了。

机器之心：离开 Waymo 和 Momenta 的原因分别是什么？

高继扬：我很感谢 Waymo 教了我很多东西，比如用 AI 做机器人的大框架、思维方式、工程体系。不过 Waymo 当时在做的 L4 级别的自动驾驶有一个很大的问题 —— 也就是 AI 产品的失效成本问题，这也是我们后来决定创业的商业根基。

我们认为，任何一个以 AI 作为核心驱动力的产品或商业模式背后都是 4 个要素的循环，商业价值、数据规模与质量、智能程度、产品力。这 4 个要素能够循环起来，这个产品就能够产生运营剩余。什么叫运营剩余？就是它单次失效的成本小于两次失效之间的收益，这个就算有剩余了。

简单来说就是要有用。举一个具体例子，比如 Robotaxi，假设它失效一次，我们给他算算成本是多少。如果发生碰撞，大概损失的量级会在 10 万人民币浮动。按现在网约车司机大约一公里赚 1 块钱去计算。如果说自动驾驶要 “有用”，那意味着这个车需要能够连续无事故地开大于 10 万公里，才能把两次 “失效” 下的收益做正。

这个失效成本太大了，这也是为什么 Robotaxi 自动驾驶搞这么多年搞不成的原因。这也是我 2020 年下半年离开 Waymo 准备回国的一个主要原因，我觉得它的商业模式和 AI 的发展规律是背道而驰的，因为产品的失效成本控制不下来。

后来我加入了 Momenta 去做量产，我觉得量产可以控制整个产品的失效成本。因为 Momenta 是 L2 模式，Waymo 是 L4，从法律的角度来讲，L2 的责任在人，L4 的责任在车，所以两者的失效成本是不一样的。

后来我在 Momenta 先后负责了感知规划控定位，包括整个的泊车系统、行车系统。这个过程里，我觉得确实是解决了失效成本的阻碍了，但是它又有新的问题，数据自主权。

一个 AI 公司的发展需要依靠数据，没有数据就没有智能，但数据的获取成本和渠道是非常重要的两点。这个方面上，目前模式下的自动驾驶软件供应商其实是不太有利的。你去跟车厂去合作，在过程里面数据能不能回来，这里边有一点博弈的关系。

所以这也是为什么我们做具身智能，我们强调的两个基本原则：第一个就是特别关注产品失效成本，因为这是你商业模式能成立的前提。第二个就特别关注数据的获取成本，因为数据获取成本如果居高不下的话，（AI）转不起来对吧？

然后在这个基础之上，我们要软硬件一体。AI 永远是核心竞争力，将 AI 核心能力搭载在一个硬件产品上面交付给使用者，直接向终端的使用者建立闭环商业闭环，我们才有可能掌握数据自主权。

所以这也是过去这两段经历给我的启发，就是要关注失效成本和数据成本。你看 ChatGPT 为什么能成，因为它的失效成本仅仅只是浪费了用户 20 秒时间，失效成本很低，同时它的数据成本也是低的，大量的数据都是来自互联网。这两点也是我们在做具身智能场景选择和产品设计的底层逻辑。

2. 一脑多形，人形不是唯一答案

机器之心：基于上面两种原则，你们首先选择的场景和产品是什么？

高继扬：具体的场景和产品我们会在下半年正式去介绍。但我们的目标是明确的，是端到端地去提供某些蓝领劳动力岗位的供给。

什么叫端到端？我们拆解任意一个岗位，它都由多个任务去构成，比如说做奶茶的，它会包括打奶昔、摇晃制作、递给客人、跟客人做沟通等一系列任务。

那一个具身智能型的机器人产品有商业价值，是因为他把这个岗位给完整的替代掉了。在商业社会里面，人是岗位的劳动力供给，岗位是任务的集合体。所以在这个里面我们就强调的是，瞄准这个现实世界商业社会当中的岗位，然后做能够去端到端替代的机器人产品。

我们做具身智能不去创造 PMF（Product Market Fit，产品市场匹配），因为 PMF 遍地都是。对于蓝领岗位，我们端到端的任务替代率越高，我的商业价值就越大。未来的具身智能体与人类融合后构成的世界，肯定会创造出新的工作流程和配合方式，不仅仅是对现有工种的替代，这个新世界的丰富性可能超过了我们所有人的想象。

机器之心：具体打算怎么切入？

高继扬：相对于靠脑力吃饭的 “白领”，蓝领更多依靠通过体力劳动改变物理世界，比如服务员、外卖员、工厂里面的工人。蓝领的工种很多，范畴很大。

至于第一步选什么工种去做，这里面有很多要素去考虑。在现在的商业化上，我们不会直接去怼狭义的人形机器人，当然它会是具身智能未来的重要形态之一。

如果说为什么国内很多公司在做人形机器人，我认为他们在 follow 一个基本逻辑，那就是因为 Elon Musk 在做。但你问他们为什么特斯拉做，为什么马斯克做，最后基本说不出来一个一二三。这个就意义不大。

这里面有一个很基本的点，很多人形机器人公司忽略了特斯拉的起点和终点。特斯拉的起点是什么？第一它不缺钱，第二，它在智能车上面迭代出了完整的智能系统，刚才我说的自动驾驶是具身智能的一个应用，它现在通过这一个应用把大脑总结迭代出了一部分，这个重要基础是别的公司不具备的。

而我们去看这个基础要迭代出来需要花多少钱？10 亿美金。现在我就不具体点名国内这些融的最猛的具身智能公司融到 10 亿美金了吗是吧？这个就是没有特斯拉的起点。

然后第二个就是没有特斯拉的终点。（现在这些机器人）在工厂里边做线束装配等等，这些应用会是特斯拉做人形机器人的终点吗？不，只是它的路径而已。它的终点是，马斯克为了要实现火星移民，最终要把机器人放到火星这种完全陌生的环境里，人形是最有通用性的，这没问题。

可是我们面对的世界是什么？我们面对的世界是经过人类改造的世界，是人这个灵长类动物的基因在大自然环境下强化学习的结果，对吧？如果机器人在咱们这个世界里边再强化学习一遍，还会是一样的结果吗？我觉得画一个大大的问号。

机器之心：你的意思是，其实不需要（完整）人形就可以做那些事情？

高继扬：对，还是回到需求。人之所以有 “人” 这个形是为了开始适配大自然的环境，可以去改造大自然。但我们现在面对的环境已经是人类改造过的社会环境。在这个社会环境里的一系列的需求，我们应该去思考什么形可以满足它。事实上，只要它有足够大的商业价值，算法进入了工程阶段我们就可以去做它。

我们认为，如果是围绕需求去做产品设计的话，那最终的本体应该是一个高自由度的关节机器人，人形可能是其中一种，但不会是唯一一种。

也就是说，具身智能的未来应该是 “一脑多形” 的，可能最终会出现的形式是，一个通用具身智能基础模型，然后能够适配到不同构型的身体上，可以对应解决现实世界的各种需求场景。

而在这个路径往前走的过程里面，对于具身智能公司来说，本体不应该是目的，而是手段。

机器之心：你们认为其实有价值的具身智能可能有很多形。选择 “先不怼人形” 的理由是什么？

高继扬：这里边涉及一个更基础的问题要去分析：构成具身智能产品的两个部分，机电系统和智能系统，什么是更重要的？有些公司在这个点上可能还在争论，但我们的结论很清晰，就是智能系统。

人形机器人在没有智能的情况下，它就是一堆铁疙瘩。而假设智能的部分由人代替，一个人去遥控机械臂，我们可以做非常多任务。因此，具身智能产品的关键不在硬件而在于智能。

而如何产生智能，核心就是又回到咱们刚才说的把 4 要素循环，然后运营剩余时效成本就这一套。对，所以关键就是要选好你的商业闭环场景。通过足够便宜的本体，实现良好的商业闭环，然后降低数据获取成本，推动算法进入规模化阶段，实现智能的提升。

但你会发现狭义的人形机器人是不符合这个链路的，它是一个死循环。如果你直接去做人形，很现实的问题马上就来了，因为人形成本高，意味着我进入商业场景的门槛就高，对吧？大家付不起。那么，没有商业闭环就没有数据闭环，所以就没有智能。

我们需要找到一条破解这个死循环的路径。人形机器人未来大概率会真的进入到人类社会，但是这个是目标，我们现在要关注的是这个路径应该长成什么样，如何实现这个目标。所以这就是为什么刚才我说，对于一个具身智能公司来说，形是手段，而目的应该是发展智能。

机器之心：之后可能会去做人形机器人吗？

高继扬：如果说，我们看任何行为它是手段，它不是目的。既然是手段，我们就要审时度势了。未来当机电系统的足够成熟，智能系统已经非常的发达了，我觉得人形可能是一个还蛮不错的选择。但是当机电系统不够成熟的时候，它的边际成本还没有降下来的时候，2024 年这个时候可能它就不是一个正确答案。

3. 商业闭环驱动智能发展

机器之心：那你们的答案是什么？在 2024 年。

高继扬：我们会认为，具身智能需要为人服务、跟人生活在一起，最终要超过人，这是具身智能发展的主旋律。在无人的环境里我们不需要智能，需要的是自动化。

那商业是什么，就是有用的打败无用的，高效地打败低效的，谦虚的打败骄傲的。我们要思考的就是，在这个地方我们到底有没有需求，满足需求的最好方法是什么。我们很多问题都会有答案。

机器之心：具体一点呢？

高继扬：我们初步的答案会是针对元场景研发的具有移动能力的操作型机器人（Mobile Manipulator）。机器人分为移动和操作两个维度，如果把动作看作一个平面，那这就是一个 X 轴一个 Y 轴。拆完之后，你会发现大量的问题还是科学问题，只有少部分问题是工程问题，我们做产品的话，我们不能带着科学假设去做产品设计，这会是有巨大风险的。

机器之心：什么是科学问题，什么是工程问题？

高继扬：工程问题是前面这个路径已经很清晰了，我就往前干往前走，我一定有结果，这叫工程问题。科学问题是什么？现在我面前有 5 条路，可能还有第 6 条路我不知道，哪条路能帮我走到终局我也不清楚，我得先试一试搞一搞看一看，这就叫科学问题。

我们不能在有科学问题的情况下，把这种纳入产品设计的过程里面，这对于一个初创公司来说会是一个巨大的成本巨大化，风险非常大，这是在赌，赌你不知道你会赢还是输。在认知不清晰的情况下，这不是一个好的选择。

机器之心：好的选择是什么？

高继扬：好的选择是我的产品一定是有技术空间和商业空间的可行性。

第一、技术上，所有的算法要素要进入工程阶段，不能带着科学的问题做产品策划。

第二、商业上存在巨大的需求空间，能够完全端到端去替代某一个蓝领岗位。你不要跟我说这 30% 机器做，那 70% 人做，这种到了商业社会都搞不通了。第三个，就是成本三年左右的时间进入到可控阶段，跟人能对比。第四，能够支持最大化去在物理世界采集数据用来数字化。

ChatGPT 能做出来，是因为他们花了 20 年的时间，通过互联网把人的知识数字化了，但是对于具身智能行业，我们对于物理世界的数字化，还没有人在做。

所以我们说，具身智能，它是物理世界的数字化和智能化交替进行协同发展的一个过程，这跟大语言模型还不太一样。以刚才这 4 条因素，就是我们去做产品选择和定位设计时候的关键 4 条。如果说你用这 4 条去卡一下的话，会发现现在大量的市面上的这些公司都会可能有这样那样的问题。

机器之心：跟大语言模型的智能相比，机器人的智能区别是什么？

高继扬：不太一样，大语言模型的智能是说机器人的理解能力，具身智能解决的是机器人的执行问题。一个是理解，一个是执行，执行是眼睛，移动是操作，理解的话更多是逻辑思维。

我们看大语言模型和具身智能的关系，第一个大语言模型会这个在具身智能在逻辑层的推理理解面起到很大的帮助。同时具身智能也会是未来多模态大语言模型最重要的数据入口，因为互联网上的数据就这么多，真正的数据还得来自物理世界。

机器之心：具身智能的 L0 到 L3 分别是怎么样的？

高继扬：如果是对操作分级的话，我们一个基本的分级就是从操作的观测、操作的对象和操作结果去看。操作观测有没有遮挡（比如从抽屉拿一个东西出来，是有遮挡的）、操作对象是否是柔性对象，操作结果的精度够不够。在这三个维度做累加，去构成 0-3 的级别。

比如，L0 级别的，是简单的拿东西、放东西。L1 级别，叠衣服，因为它是一个柔性对象，（对机器人）有一定的精度要求，但精度可能没有那么高。L2 级别，可能是画油画、捏橡皮泥；L3 最后集大成的场景比如是通用烹饪，从切菜、到炒，到装盘，机器人需要面临过程中的环境剧烈变化。炒完之后把它装到盘子里，最后用筷子尝。现在还是 L1 级别。

机器之心：目前整体上行业的水平还在什么阶段？在移动和操作两个维度呢？

高继扬：L1 附近。移动方面，机器人已经基本解决了对困难地形的通过和复杂场景规划方面的问题，通用移动这件事已经马上要来了。意思是，即使前面的路再乱再复杂，可能又是台阶又是水坑，机器人都能迈的过去。

但是操作这个里边有大量问题没解决。它是一个阶梯式上升的过程。在阶梯式上升的步骤里面，我们需要设计不同的商业闭环，推动它一步一步向上走。通过商业闭环，去做数据闭环，有了数据闭环，去发展智能。有了 L0 级别的智能，再往 L1 和 L2 级别的往上走。

机器之心：你们的第一个商业闭环设计在哪里？

高继扬：我们会在今年下半年做披露。我们认为现在已经是一个被新技术打开了新的供需关系的局面，而创业公司所竞争的，也并不是技术制高点，而是新技术打开的新供需关系。而技术只有在有供需关系的时候，它才是一个有价值的东西，不然它就是实验室 demo。

具身智能也需要落地，回到刚才的逻辑，具身智能需要数据，数据需要商业，商业需要落地。每天在实验室里搞 demo 的人，公司是不可能走到底的，因为它违背了 AI 的两个基本规律，第一个数据获取的成本够不够低，第二个产品失效的成本够不够低。如果这两个基本规律你没有满足，你永远不会有突破，永远是一个实验室。

机器之心：你说到需要落地。而人形机器人有些产品能做出来，但是没有办法落地，因为它的边际成本太高了。你们场景下机器人的边际成本是怎样的？

高继扬：我只能先宏观的来说。首先边际成本初期看有两部分，就是这个场景下的失效成本和硬件成本，但最终看的只有一部分，也就是只会有硬件的边际成本。因为具身智能的关键就在于通用泛化，通用和泛化在经济上的表达就是边际成本无限期限于 0。

所以这就是说按这个东西需要一个过程，我们在这个过程里面要保证的是什么？发展的过程当中，数据和智能的这部分边际成本要有效的做累积，转化到我们研发的固定成本上面去，然后最终我们剩下的就是场景下硬件的边际成本。

另外的方面，产品的成本一定程度上还取决于在场景里创造的价值。如果说客户能为这个场景付 100 元，那么我 80 元的成本就是低的，如果这场景我只能付 10 块钱，我 20 块钱都嫌高。

所以硬件的成本还取决于在场景里面创造的价值。在这方面，中国市场有一个独特的挑战，那就是人工太便宜。所以对于具身智能公司来说，出海可能是必须的。

机器之心：现在你们觉得具身智能赛道它的技术路线是分散的还是收敛的？

高继扬：挺分散的。因为脑、形、还有产品商业化其实它不是割裂的，它是一个融合在一起的东西。脑要和形配合，脑加形才是产品。然后适配什么样的场景，如果处理好失效成本，数据获取成本这些东西。所以我觉得这个事最后能做成，它不是单点的，一定是这些东西你都想清楚了，然后找到一个好的目标才可以。

但是大家现在对于这个事儿可能就是说认知不一样，形成的路径也不一样，做的产品也不一样，所以你很难讲说大家现在有收敛的结果。

机器之心：对于具身智能落地的场景，以及什么样的技术路径去匹配这样的场景，这些问题都没有一个比较共识的答案？

高继扬：如果有共识的话也不需要创业了，大公司就搞了，是吧？创业其实就是说因为有非共识，大家的观点不一样是吧？然后同时正确的观点又掌握在少数人手里边，这就是机会。

4. 相信的场

机器之心：成立至今，一脑多形的路线想法，有没有遇到一些挑战？

高继扬：我们这个路线肯定是有挑战的。因为跟特斯拉不一样，跟主流的人形机器人不一样。不过，这其实既是我们的挑战也是我们的机会。如果我们能够重新在这个市场上帮助大家建立一些认知，我们会收获一批相信这个路线的人，这些也会变成我们做这件事的很好助力。

如果我们开始去讲类似的故事，用我们团队背景去讲其他人讲过的故事去融钱，也肯定能融到。但我觉得我没有办法做到我不相信的东西。我之所以能一遍遍地讲，就是因为这些东西是我所相信的，即使别人不相信，我也要一遍一遍的去讲。

机器之心：现在技术迭代这么快，你对自己选择的技术方向和战略有没有过怀疑？

高继扬：我觉得对于新东西，尤其是对于自己之前没认识到的边界以外的东西，肯定得保持开放心态。然后要把新东西还是要放回到你建立的框架里面。

最怕的是什么，没有框架。这样的话，他给我来一句我就信了，另外一个人又给我来一句我又信了。那这个人肯定就不适合做一个 CEO，也不适合去创业。

所以我觉得最关键的是有框架，然后这个这个框架的建立要从过去的实践过程当中总结规律，同时又要对新的事物新的信息保持开放。

对于丰富框架这件事来说，所有个人的认知都是有限的，我觉得这也是我们这个团队很有优势的一点，因为团队很全面。我们团队一起共同思考和面对这些新信息，用逻辑去推演，不断建立起我们自己的框架。并且，在实践的过程中所遇到的问题，我们也用自己的框架去检验它。我们目前觉得还是 OK 的。

机器之心：你这半年多以来你觉得进展相对顺利吗？最大的问题是什么问题？

高继扬：我觉得还行。最大问题我觉得就是说真正的问题不是我已经意识到的，而是我还没有意识到的问题，可能视野之外的问题是比较大的问题。我相信，只要问题进入视野之内，只要我们用正确的方法，去开始解决这个问题，慢慢地这个问题都会变小。

比如，怎么做融资，怎么在商业上做 BD。可能我是技术工程师出身，我会认为，当你认识到这个问题之后，解决方法基本都是类似的 —— 拆解加测量，比如去看这 1 个大问题怎么去拆解成 5 个小问题，然后每个小问题都去测量一下，然后这 5 个小问题都在变好，那么大问题一定就在变好。

所以当问题已经成为问题的时候，反倒不是问题，但危险的是那些你觉得挺好，但其实他有问题的地方才是真问题。

机器之心：听下来的话，你们创始团队组建的过程是蛮顺利的。

高继扬：比较顺利，主要我觉得还是大家都有共同的梦想。我们的团队过去都互相认识、互相合作过，互相信任，并且大家年龄相仿，价值观也是一样的。

具身智能发展最重要就是人才。人对了方向才能对，方向对了，有正确的有足够的资源，我们才能在正确的方向上去迭代。

所以有的机构投资人也好，或者是媒体也好，经常喜欢去看说某一个什么又突然搞了一个大新闻。但其实 AI 里面不会存在魔法，都是在正确的方向上高速迭代，然后累积出来的东西就是曾国藩的 6 个字，“结硬寨打呆仗”，这是我们做 AI 最大的感受。

机器之心：如果说如果没有魔法，“在正确的方向上高速迭代” 是一个成功公式的话，失败的原因也有可能就是没有找到正确的路线和迭代速度过慢。

高继扬：对，就是你的方向不对。你没有把握住 AI 的基本规律，那是你有没有关注你的产品的失效成本，你有没有关注你这个数据的获取成本，你不关注这些你方向很有可能是错的。

机器之心：你们看看现在的竞争情况是怎么样的？

高继扬：我觉得现在还没什么竞争，大家都没什么产品，谈不上竞争，只有在资本市场存在一定竞争。但是我觉得这里边这些公司各自的业务模式和商业上的策略都不一样，然后咱不一个个评价了。只是说，我觉得大家都不一样，即使在融资上有竞争也没有非常的大。

投资是为了赚钱，那么只要我们这个模式能够去说服大家，这是一个有希望的模式，那么对于投资人来讲为什么不投？也不会说是，投了别人就不投你了，不存在这个情况。

机器之心：所以你觉得自己去说服投资人最重要的一个点是，现在的模式是可以大概率确保他们是可以赚钱的，是这个点吗？

高继扬：不是。我觉得是说本身具身智能这事一定短期不赚钱，这个赚钱是长周期的范畴上，我们能把事做成，因为你事做成了就会赚钱了。

我觉得这本质上是一个相信的游戏 —— 你相信还是不相信？然后相信有两种相信，第一种相信叫做从规律出发选择相信，第二种相信叫做因为别人相信，所以我相信。

我们很显然是从规律出发做判断，就相信做选择，然后开始能够吸引到被我们说服的投资人，也一定是基于规律出发的。

回到现实，我们一定会面临的问题，就是我们刚才我讲的这条路径不是主流路径，因为大家认为主流路径是人形机器人，是吧？在这个里面，我们要把这个事做成，就得让更多的人相信。怎么让更多的人相信，一方面靠吸引前期的相信规律的人先加入我们，第二个用现实的结果让更多的人相信我们，相信是一个场。在这个场里面人和人之间是会影响的，我们要去努力构建这个场。

机器之心：你觉得说接下来最重要的事情是什么？

高继扬：以一年周期去看的话，最重要的事情就是要去影响更多的人加入我们的团队，获取更多的资金支持，如果拉长周期的话，我觉得还是要坚持自己所相信的东西。

产业星海图具身智能

相关技术

自动驾驶技术机器人技术自动驾驶汽车

清华大学机构

清华大学（Tsinghua University），简称“清华”，由中华人民共和国教育部直属，中央直管副部级建制，位列“211工程”、“985工程”、“世界一流大学和一流学科”，入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”，为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员，被誉为“红色工程师的摇篮”。清华大学的前身清华学堂始建于1911年，因水木清华而得名，是清政府设立的留美预备学校，其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙，与北京大学、南开大学组建国立长沙临时大学，1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立，清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/

相关技术

知识图谱

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

百度风投机构

2016 年 9 月 13 日，百度宣布成立百度风投 (Baidu Ventures)，李彦宏亲自出任董事长和投资委员会主席。百度风投致力于成为「人工智能时代的世界一流 VC」，依托百度作为世界人工智能领先企业的独特平台，通过富有洞察力的行业判断、积极主动的增值服务、独立高效的决策机制，成为优秀人工智能创业者的「共同创始人」，与他们共同成长并分享他们的成功。百度风投将在北京、硅谷设立区域总部，覆盖全球初创期到成长期的人工智能项目。 2017 年 2 月 6 日，百度宣布前联想之星合伙人刘维作为副总裁正式加盟百度，任百度风投 (Baidu Ventures)CEO，全面负责百度风投的各项工作。同时加入的还有曾任百度高级技术总监、后创办多盟并担任 CEO 的齐玉杰，以及曾任高盛亚洲执行董事及 TA Associates 合伙人的蔡薇。

https://bv.ai/en/

相关技术

机器学习物联网技术大数据技术

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/

相关技术

机器学习自然语言处理知识图谱

本体技术

在计算机科学和信息科学中，本体包括表示、正式命名和定义概念，数据，实体之间的类别，属性和关系，并在一个，多个或所有域实例中。

来源：wiki

Elon Musk人物

伊隆·马斯克（Elon Musk）是一名美籍和加籍企业家，出生于南非。作为SpaceX、特斯拉和PayPal的创始人而闻名。

所属机构

OpenAI