机器之心 | 企业人工智能服务

Stable Diffusion 实战课

解构多模态，GPT-4o 的自回归路线真的走通了吗？

GPT-4o 近期新推出的图像生成功能因生成图像效果优异而引发广泛关注，针对于 GPT-4o 的图像生成功能的技术细节，在社交平台上出现了诸多猜测。

高估值对 AI 公司没有好处？

Brad Gerstner 和 Bill Gurley 在 2025 Upfront Summit 大会上对私人市场中公司估值过高和公开市场的估值调整，以及投资者对风险投资市场的评估和期待作出了分享。两位投资者就高估值对公司不利达成共识。

强推理模型下，Agent workflow 仍有必要吗？

大模型本身才是构建 AI 智能体的关键？

从「拼能力」到「拼盈利」，AI 视频生成赛道的格局已经变了？

Sora 已经没人用了？

大模型江湖，算法与工程孰执生意牛耳？

OpenAI 前CTO Mira Murati 的新团队近期透露了哪些消息？

2025 年，通用机器人要从实验室走向市场了吗？

机器人初创公司 Figure AI 近期提出了一个通用具身智能模型 Helix，是首个能够输出高频率连续控制整个类人上肢的 VLA。Helix 模型实现的突破性效果，引发了近期对于具身机器人领域进展的关注。

Week 14 · 解构多模态，GPT-4o 的自回归路线真的走通了吗？

本周，OpenAI 完成 400 亿融资，并宣布开源计划；LeCun 与谢赛宁新作证明纯视觉 SSL 在多模态任务的潜力；智谱近日推出免费智能体产品「AutoGLM 沉思」。

Week 13 · 强推理模型下，Agent workflow 仍有必要吗？

本周，谷歌发布Gemini 2.5 系列首款实验版推理模型；OpenAI 发布 GPT-4o 原生图像生成功能；英伟达连发多款 Cosmos 系列模型...

Week 12 · 大模型江湖，算法与工程孰执生意牛耳？

本周，英伟达于 GTC 发布 GB300 芯片与系列 AI 产品；xAI 收购视频生成创企 Hotshot。

Week 11 · Long-CoT 后，推理模型的「思维模板」有哪些新玩法？

本周，Meta FAIR 和纽大等提出没有归一化层的 Transformer；前 DeepMind 科学家创业成立 Reflection AI。

Week 10 · 从虚拟到现实，Sim2Real Might Actually Work

本周，Ilya Sutskever 创企 SSI 完成 20 亿美元融资，核心成员公开；通用 AI 智能体 Manus 引热议

Week 09 · AI已精，硬件何愚？

本周，OpenAI 发布 GPT-4.5 研究预览版；DeepSeek连续五天开源多项工具即分析数据。

就在今天，我们发现字节的即梦也在悄咪咪灰测 3.0 模型，号称「影视质感，文字更准，直出 2k 高清图」.

2025 年开年，以 DeepSeek R1 为代表的推理大模型开启炸场模式。

上海交通大学与 SII 联合发布了 DeepResearcher，代码训练框架完全开源。

该框架包含三个连续步骤：对齐两种模态表征的 ProteinCLAP、从文本模态生成蛋白质表征的 Facilitator，以及根据表征生成蛋白质序列的解码器。

该模型实际应用于海洋样本（Tara Oceans 数据集）时，相比于最广泛使用的鉴定分泌蛋白的方法，全新的方法能够回收两倍以上的蛋白质。

ATEC2025 科技精英赛是由 ATEC 前沿科技探索社区主办，清华大学、浙江大学、西安交通大学、上海交通大学发起。

大模型能写出 ICML Spotlight 论文吗？

低秩适配器（LoRA）能够在有监督微调中以约 5% 的可训练参数实现全参数微调 90% 性能。

扩展无语言的视觉表征学习。

大模型写代码早就是基操了，但让它写算法竞赛题或企业级系统代码，就像让只会煮泡面的人去做满汉全席 —— 生成的代码要么是 “铁板一块” 毫无章法，要么是 “一锅乱炖” 难以维护。

我们还发现了一个新思路 —— 用 GPT-4o 制作插画风暖新闻。

2025 年，生成式 AI 的发展速度正在加快。

GPT-4o整活！3个小时、6个镜头重现吉卜力版《甄嬛传》名场面