编辑 | matrix
科技巨头 OpenAI 于 2 月 2 日推出付费工具「Deep Research」,这款工具能将数十或数百个网站的信息综合为带有引用的完整报告。
此举紧随谷歌在去年 12 月发布的类似产品,标志着 AI 个人研究助手时代的来临。这类工具最显著的特点是将原本需要数小时的研究工作压缩至数十分钟内完成,引发学界广泛关注。
这两款工具的技术基础各具特色。OpenAI 的产品基于其改进的 O3 大语言模型(LLM),整合了增强的推理能力和互联网搜索功能。而谷歌的 Deep Research 则采用 Gemini 1.5 Pro 作为基础,尚未使用其最新的 2.0 Flash Thinking 推理模型。这种技术路线的差异也反映在工具的实际表现上。
性能测试与评估
在性能测试方面,这些工具展现出令人瞩目的潜力。
OpenAI 的 Deep Research 在「人类最后的考试」(HLE)中取得 26.6% 的成绩,在 GAIA 基准测试中更是达到 58.03% 的高分,超过了目前公开排行榜上 40.82% 的最高记录。
相关链接:https://www.techradar.com/computing/artificial-intelligence/openais-deep-research-smashes-records-for-the-worlds-hardest-ai-exam-with-chatgpt-o3-mini-and-deepseek-left-in-its-wake
这些数据虽然令人印象深刻,但正如 White 所说,现有的基准测试可能并不完全适合评估这类生成长篇综述的工具,未来可能需要更多基于人类评估的功能性测试标准。
相关链接:https://arxiv.org/abs/2409.13740
实际应用与评价
在实际应用中,这些工具展现出显著的研究辅助能力。
旧金山初创公司 FutureHouse 的化学家和 AI 专家 Andrew White 指出,谷歌的产品充分发挥了其在搜索和计算领域的优势,能快速帮助用户掌握新课题。
同时,康涅狄格州法明顿杰克逊实验室的免疫学家 Derya Unutmaz 表示,OpenAI 的报告质量已达到或超越了传统的学术综述水平。他甚至认为,传统的综述写作方式可能正在变得过时。
这种观点得到了 White 的认同,他特别指出传统人工更新综述的周期限制,认为 AI 系统可能为学术文献的持续更新提供新的可能。
局限与挑战
然而,这些工具的局限性同样不容忽视。
OpenAI 官方承认其工具仍处于早期阶段,存在引用错误、事实幻想、无法准确区分权威信息与谣言等问题。谷歌则提醒用户需要对 Gemini 的输出进行复核。
德国马克斯·普朗克光科学研究所的 Mario Krenn 更进一步指出,当前的 AI 工具与科学研究的本质仍有距离,真正的科研工作需要多年专注和新思想的演化,这是 AI 目前尚未展现的能力。
这些工具目前面临的最大挑战之一是无法访问付费内容,包括大量重要的学术论文。这个问题得到了 OpenAI CEO Sam Altman 的关注,他承认需要为此找到解决方案。这不仅关系到工具的实用性,更涉及学术资源获取的公平性问题。
未来展望
展望未来,AI 研究助手可能将重塑学术研究的方式。它们不仅能提高研究效率,还可能促进知识的更快传播和更新。但要真正实现这一潜力,还需要解决准确性、可靠性和资源获取等一系列挑战。
随着技术的进步和更多实践检验,这些工具的能力和应用场景必将进一步拓展,为学术研究带来新的可能。
原文链接:https://www.nature.com/articles/d41586-025-00377-9