近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
Week 17 · Diffusion Policy 做具身控制会比 VLM 更有前途吗?
04.26本周,外媒称马斯克的 xAI 正在以 180 亿美元估值融资 60 亿美元;黄仁勋赠送首台 DGX H200 AI超算给 OpenAI。
Week 16 · VAR 会是 Scaling Law 在视觉生成的新起点吗?
04.19本周,Meta 开源 Llama 3 模型;波士顿动力展示电动版机器人 Atlas。
Week 15 · 用进化算法做模型合并是否比主流的 MoE 技术更有潜力?
04.12本周,谷歌发布了 Gemini 1.5 Pro 与一系列 AI 进展;吴恩达加入亚马逊董事会。
Week 14 · 苹果将大规模裁撤电动汽车项目员工;马斯克 xAI 寻求新一轮融资
04.07本周,吴恩达预测 AI 智能体工作流将于今年取得重大进展;苹果宣布五月底实施大规模裁员,大部分员工与电动汽车项目相关。
Week 13 · LLM 之后,「Next token Prediction」还能训机器人?
03.29本周,马斯克 xAI 发布 Grok1.5 模型;AI 音乐创作助手 Suno V3 引热议,被称为「音乐界的 ChatGPT」。
Week 12 · 从编程助手到程序员,「Devin 们」 还有多长的路要走?
03.22本周,Stable Diffusion CEO 辞职,核心研究团队被曝集体辞职;AI 概念加持下 Reddit IPO 首日暴涨。
Diffusion Policy 做具身控制会比 VLM 更有前途吗?
04.26为什么 Diffusion Policy 对具身控制特别有效?
大模型开闭源之争的终极答案:不重要?!
04.26百度的 CEO 李彦宏在近日表态,认为大模型开源意义不大,开源模型会越来越落后。
黄仁勋在「CadenceLIVE 硅谷 2024」大会上透露了哪些关键信息?
04.26人形机器人、自动驾驶...黄仁勋更看好这些方向。
VAR 会是 Scaling Law 在视觉生成的新起点吗?
04.19北大和字节团队近期提出的 VAR 则使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大语言模型相似的 Scaling Laws。
Gen AI 应用需求急剧降速?3月访问量暴跌超 90%
04.19据近期发布的「全球 AI 产品降速榜」,Midjourneyai.ai、Google Bard 等应用在 3 月的访问量急速下跌。
《2024 年人工智能指数报告》报告都说了什么?
04.19这份长达 500 多页的报告是 Stanford HAI 发布的第 7 份 AI Index 研究,追踪了 2023 年全球 AI 的发展趋势。
近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。
余承东下一步的工作重心将是什么?
有 apk 文件,能安装到手机上。
与计算机科学家 Ellie Pavlick 谈论她的工作——寻找大语言模型 (LLM) 中理解的证据——听起来可能像是在开玩笑。「hand-wavy」这个短语是她最喜欢的,如果她提到「意义」或「推理」,它通常会带有引号。
Kimi 能直出思维导图,还免费!
这场等待「GPT-5」的游戏啥时候才能结束?
ChatGPT-4 被认为是人工智能技术发展的重要节点,语言大模型之后的多模态大模型初步显现了世界模型的影子。
前段时间,微软搞了个乌龙:隆重地开源了 WizardLM-2,又在不久后撤回得干干净净。
谷歌在开发者大会前,对多个关键技术团队进行裁员。
探索视频理解的新境界,Mamba 模型引领计算机视觉研究新潮流!
近日,Pika 在 X 上宣布,新推出「风格生成」功能,并向所有人开放。
人工智能正在进入物理世界。