Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光

人工智能的下个大方向已经出现,标志性学者决定下场创业。

本周五,一个重磅消息引爆了 AI 圈:斯坦福大学计算机科学家李飞飞正式宣布创办 AI 初创公司 ——World Labs,旨在向人工智能系统传授有关物理现实的深入知识。

李飞飞说道:在 AI 领域中,真正难以解决的问题是什么?我的答案是空间智能 —— 这项技术可以赋能和实现创作、设计、学习、AR/VR、机器人等领域的无数可能用例。

为此,李飞飞与三位联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall,以及一支世界级图像技术团队共同合作成立实验室,致力于解决这个大自然花费五亿年才解决的超级难题。

图片

当前的生成式人工智能是基于语言的,而李飞飞看到了一个前沿领域,即系统利用物理、逻辑和物理现实的丰富细节构建完整的世界。

今年 5 月,李飞飞创业的消息首次曝光。尽管可能还需要一年的时间才能推出产品,但 World Labs 已收获多达 2.3 亿美元的投资。据报道,这家新兴初创公司的估值为 10 亿美元。

World Labs 的探索方向是李飞飞研究的进一步延伸。自 2007 年起,李飞飞等人基于超前的眼光创建了 ImageNet,帮助人工智能扭转了局面,ImageNet 是一个定制的数字图像数据库,是测量图片类应用运行准度、效率的行业标杆。它催生出了一系列先进的神经网络李飞飞认为,如果人工智能要创造现实世界,无论是现实的模拟还是完全想象的宇宙,今天的深度学习模型也需要类似的推动。

李飞飞介绍道:「计算机的物理世界是通过摄像机看到的,而计算机大脑则位于摄像机后面。将愿景转化为推理、生成和最终的交互需要理解物理结构、物理世界的物理动力学。这项技术被称为空间智能。」

World Labs 的描述是一家空间智能公司,它的未来将决定空间智能是否会引发一场革命。 

多年来,李飞飞一直对空间智能有着执着的追求。当大家都在为 ChatGPT 疯狂时,她和她的学生 Justin Johnson 却在电话里兴奋地讨论着 AI 的下一次迭代。Johnson 现为密歇根大学的助理教授,他表示:「未来十年将是创造全新内容的时代 ,这些内容会将计算机视觉深度学习和 AI 从互联网世界带入真实的空间和时间。」

在与虚拟网络先驱 Martin Casado 共进晚餐后,李飞飞决定在 2023 年创办一家公司。Casado 如今是 Andreessen Horowitz 的合伙人,这家风投公司以其对 AI 近乎狂热的推崇而声名远扬。

图片

                           World Labs 的愿景介绍

在组建团队时,Johnson 作为联合创始人加入。Casado 还推荐了 Christoph Lassner 和 Ben Mildenhall。前者曾在亚马逊、Meta 的 Reality Labs 和 Epic Games 工作,是渲染方案 Pulsar 的提出者。后者创造了一项强大的技术 —— 神经辐射场(NeRF),他离开谷歌的高级研究科学家职位,加入了这个新团队。

图片

                         World Labs 的四位创始人。

最近,具身智能正在升温,使用大型世界模型进行训练,或许可以赋予机器人「世界感」。这确实在 World Labs 的计划之中,但成型还需要一段时间。在人们的预测中,第一阶段是构建一个对三维性、物理性以及空间和时间概念有深刻理解的 AI 模型。接下来,模型将支持增强现实技术。之后,World Labs 将进军机器人领域。如果这一愿景得以实现,大型世界模型将有助于改进自动驾驶汽车、自动化工厂,甚至可能推动类人机器人的发展。

前路漫漫,并且路途上困难重重。World Labs 承诺会在 2025 年推出产品。面对外媒连线记者提问「World Labs 将如何盈利」时,创始人李飞飞回应:「现在只是刚起步,有很多边界需要突破,还有许多未知的问题需要解决,当然,我们是全球最优秀的团队,能够解决这些未知问题。」

Casado 则给出了更具体的解释。他指出,像 ChatGPT 或 Anthropic 的 Claude 一样,模型本身就可以作为产品,作为一个供他人直接使用的平台,或者托管其他应用程序的平台。客户可能包括游戏公司或电影制片厂。

World Labs 并不是唯一一家涉足所谓「物理 AI」的公司。英伟达 CEO 黄仁勋在今年的 GTC 大会上就曾表示,为通用人形机器人构建基础模型是当今 AI 领域最令人兴奋的问题之一。

但 Casado 坚持认为,World Labs 的雄心、人才和愿景是独一无二的。「我已经做投资快 10 年了,这是我遇到过最强的团队,没有之一。」风投支持自己的投资是很常见的,但 Casado 不仅仅是投入资金:自从成为投资人以来,他首次作为兼职团队成员,每周花一天时间在公司里。

其他的投资公司也纷纷入局, 包括 Radical Ventures、NEA,值得关注的是还有英伟达的风险投资部门。此外,还有一长串明星级别的天使投资人,阵容包括 Marc Benioff、Reid Hoffman、Jeff Dean、Eric Schmidt、Ron Conway 以及 Geoff Hinton。看到 Hinton 出现在这里,可以说是 AI 教父正在支持 AI 教母。

李飞飞宣布成立创业公司后,很多 AI 领域的知名学者纷纷发来祝贺,其中也有很多是她的学生。

OpenAI 创始成员、前特斯拉 AI 高级总监 Andrej Karpathy 表示:我在攻读博士学位期间与李飞飞和 Justin Johnson 共度了很长一段时间。我非常怀念这段时光,李飞飞是我的导师,也是我们无畏的领导者,Justin 和我一起撰写论文,我们三人共同开发了 CS231n 课程的第一个版本。World Labs 团队是顶级的,我很高兴看到他们采用当今的前沿研究并将 AI 扩展到 3D 领域!

图片

英伟达资深研究科学家、AI 智能体项目负责人 Jim Fan 说道:李飞飞对具身智能的看法极大地影响了我的博士课程和研究品味。空间智能是计算机视觉和具身智能体的下一个前沿!

图片

众多大佬看好,World Labs 的目标会成为人工智能的下一个大方向吗?

我们或许还需要等待。从一个角度来看,World Labs 的承诺与此前热炒过的词汇:元宇宙有些相似。不过 World Labs 的创始人认为,那场短暂的热潮来得太早,只是基于一些有前景的硬件,但缺乏真正的互动内容。他们暗示,世界模型或许能够解决这一问题。

另一方面,在大模型技术爆发后,大量新势力车企已经开始把自动驾驶技术的方向转向世界模型与端到端方案,探索具身智能的机器人创业公司也成批出现。越来越多的实践正在告诉我们:新方法已经展现出了跨代的优势。

可以想象,在这些世界里,AI 绝不会停滞不前。 

参考内容:

https://www.reuters.com/technology/artificial-intelligence/ai-godmother-fei-fei-li-raises-230-million-launch-ai-startup-2024-09-13/

https://x.com/drfeifei/status/1834584286932181300

https://www.wired.com/story/plaintext-the-godmother-of-ai-wants-everyone-to-be-a-world-builder/

产业空间智能李飞飞
相关数据
李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

类人机器人技术

类人机器人是一种具有与人类相似外形的机器人。类人机器人的主要特性包括:1. 可以在人类日常环境中工作 2. 可以使用人类日常使用的工具 3. 具有与人类相似的外形 目前类人机器人的设计主要来满足功能方面和实验方面的需求。针对功能性设计的类人机器人需要协助人类完成一些高危险,高难度的任务以及辅助病人,幼儿及老年人的日常生活和娱乐等。类人的设计使其可以很好的在人类日常环境中行走以及使用人类日常工具。同时,其类人的交互模式使其可以更好的完成辅助人类以及交互娱乐的功能; 而针对实验需求的类人机器人可以帮助人类更好的探究人类自身的认知,智力,心理等多方面特点。 通常来讲,类人机器人完整的模仿人类的外形,具有躯干,头部和四肢。也存在针对部分特定人体进行仿真的类人机器人,例如只模仿腰部以上的PR2机器人,只模仿腿部的机器人,以及只涉及眼睛和嘴来模仿人类面部表情的机器人(例如Kismet机器人)。此外,仿制人在普通类人机器人的基础上进一步从美学角度上对人类的皮肤,毛发,神态等模仿,从而达到了以假乱真的效果。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

推荐文章
暂无评论
暂无评论~