Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对?

春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

简单来说,DeepSeek 最近发布的两个模型 —— DeepSeek-V3 和 DeepSeek-R1 以很低的成本获得了比肩 OpenAI 同类模型的性能。这引发了市场对 AI 硬件需求的担忧,投资者担心未来对英伟达高端芯片的需求可能会减少。

图片

与此同时,关于 DeepSeek 技术创新的讨论也非常多。很多人认为,DeepSeek 在硬件受限的条件下被逼走出了一条不同于 OpenAI 等狂堆算力的道路,用一系列技术创新来减少模型对算力的需求,同时获得性能提升。

这些成就得到了包括 Sam Altman 在内的 AI 领军人物的肯定。

图片

图片

随后,OpenAI 首席研究官 Mark Chen 也发了帖。他表示,DeepSeek 确实独立发现了一些 OpenAI o1 也在用的核心理念,不过,这并不代表 OpenAI 在算力上的高投入是不合理的。

帖子原文如下:   

恭喜 Deepseek 开发出了 o1 级别的推理模型!他们的研究论文表明,他们独立发现了一些我们在通往 o1 的路上发现的核心理念。

不过,我认为外界的反应有些过度夸大,特别是在成本方面的说法。拥有两个范式(预训练和推理)意味着我们可以在两个维度而不是一个维度(低成本)上优化某项能力。

但这也意味着我们有两个可以扩展的维度,我们打算在这两个维度上都积极投入算力!

随着蒸馏研究的日益成熟,我们也发现降低成本和提升能力愈发解耦。能够以更低成本(特别是在更高延迟的情况下)提供服务,并不意味着就能产生更好的能力。

我们将继续提升以更低成本提供模型服务的能力,但我们对我们的研究路线图保持乐观,并将继续专注于执行它。我们很高兴能在本季度和今年为大家带来更好的模型!

图片

短短几段话,Mark Chen 表达了好几层观点,我们让 DeepSeek-R1 来解读一下每段话的言外之意:  

图片

总之,和 Sam Altman 一样,Mark Chen 的发言也是在重塑外界对 OpenAI 的信心,并预告今年会带来更好的模型。

此外,OpenAI研究科学家Noam Brown也在努力弱化外界对OpenAI和DeepSeek的对比,但大家似乎并不买单。

图片

图片

图片

另外,Mark Chen 提到的「外界的反应有些过度夸大,特别是在成本方面的说法」这一点最近也被很多人讨论,尤其是「DeepSeek-v3 训练成本仅为 558 万美元」这一说法。其实,DeepSeek-v3 的技术报告原文是这么写的:「上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本」。

图片

图灵奖得主、Meta AI 首席科学家 Yann LeCun 也认为市场对于 DeepSeek 的成本反应并不合理。不过,他是从推理的角度来看的。他指出,人们常常以为巨额投资主要用于训练更强大的模型,但实际上大部分钱都花在了让这些 AI 服务能够稳定地服务数十亿用户身上。而且随着 AI 能力的增强,维持服务运行的成本会变得更高,关键是要看用户是否愿意为这些增强的功能付费。 

图片

不少网友对 LeCun 的看法表示赞同,认为训练、推理成本更低的 AI 意味着这项技术能更快普及,从而创造更大的市场。

图片

图片

从这个角度来看,DeepSeek 在降低推理成本方面的努力似乎比降低训练成本的贡献更值得被关注。

图片

图片

针对可能即将到来的推理需求的激增,OpenAI、Meta 等都在做相应准备,比如旨在为 OpenAI 建设强大基础设施的「星际之门」项目(计划投资 5000 亿美元,但资金是否到位一直存疑)、Meta 新一年 600 亿美元的 AI 投资……

看来,2025 年,AI 市场的竞争依然激烈,DeepSeek 将在新一年走出多远还有待观察。

产业DeepSeek-R1-Lite-PreviewDeepSeek-V3-BaseDeepSeek
暂无评论
暂无评论~