编辑 | 白菜叶
人工智能 (AI) 工具正在改变我们的工作方式。许多产品试图通过帮助研究人员整理大量文献来提高科学研究的效率。
这些科学搜索引擎基于大型语言模型 (LLM),旨在筛选现有研究论文并总结关键发现。人工智能公司不断更新其模型的功能,并定期发布新工具。
那么如何使用这些工具呢,又有哪些需要注意的呢?
有哪些可用的工具?
一些最受欢迎的 LLM 工具包括 Elicit、Consensus 和 You,它们提供了多种加快文献审查的方法。
当用户将研究问题输入 Elicit 时,它会返回相关论文列表及其主要发现的摘要。用户可以针对特定论文提出进一步的问题,或按期刊或研究类型进行筛选。
Consensus 帮助研究人员了解某一主题的各种科学信息。用户可以输入诸如「氯胺酮可以治疗抑郁症吗?」之类的问题,该工具会提供「共识计量表」,显示科学共识所在。研究人员可以阅读同意、不同意或不确定假设的论文摘要。
马萨诸塞州波士顿共识组织的首席执行官 Eric Olson 表示,人工智能工具并不能取代对论文的深入审阅,但它对于高层次的研究扫描很有用。
加利福尼亚州帕洛阿尔托的一家软件开发公司 You 表示,You 是第一个将人工智能搜索与最新研究引文数据相结合的搜索引擎。该工具为用户提供了探索研究问题的不同方式,例如其「天才模式」以图表形式提供答案。上个月,You 推出了一款「多人协作工具」,允许同事协作和分享自定义人工智能聊天,从而自动执行特定任务,例如事实核查。
图示:应用界面截图。(来源:网络)
总部位于伦敦的研究分析公司 Clarivate 于 9 月发布了一款人工智能研究助手,让用户可以快速搜索 Web of Science 数据库。
Clarivate 表示,科学家可以输入研究问题,查看相关摘要、相关主题和引文图,这些图会显示每项研究引用的论文,并帮助研究人员识别关键文献。
尽管 Web of Science 上的论文都是英文的,但 Clarivate 的 AI 工具也能用不同的语言总结论文摘要。
Clarivate 驻伦敦的产品副总裁 Francesca Buckland 表示:「大型语言模型中嵌入的语言翻译功能具有巨大的潜力,可以让世界各地的科学文献更加均衡。」
BioloGPT 是越来越多的特定主题 AI 工具之一,可以对生物学问题提供总结和深入的答案。
哪些工具适合哪些任务?
当被问及最佳的人工智能搜索引擎工具时,加拿大卡尔加里的流行病学家 Razia Aliani 说道:「我总是说,这取决于你真正想做什么。」
当 Aliani 需要了解某个话题的共识或意见分歧时,她会倾向于使用「共识」。
Aliani 也在系统评价公司 Covidence 工作,她在审查大型数据库时会使用其他 AI 工具。例如,她使用 Elicit 来微调她的研究兴趣。在输入初始研究问题后,Aliani 使用 Elicit 排除不相关的论文并深入研究更相关的论文。
Aliani 表示,人工智能搜索工具不仅可以节省时间,还可以帮助「提高工作质量、激发创造力,甚至找到减轻任务压力的方法」。
图示:Clarivate 的 AI 工具可生成引文图,显示每项研究引用的论文。(来源:网络)
Anna Mills 在加利福尼亚州旧金山的马林学院教授入门写作课程,其中包括研究过程课程。她说,向学生介绍这些工具很有吸引力,但她担心这些工具可能会妨碍学生对学术研究的理解。
相反,她热衷于教学生人工智能搜索工具如何犯错,这样他们就可以培养「批判性地评估这些人工智能系统给他们提供的东西」的技能。
BiologGPT 的创始人 Conner Lambden 表示:「成为一名优秀的科学家需要对一切事物保持怀疑,包括你自己的方法。」
那么不准确的答案和错误的信息怎么办?
人们对主要人工智能聊天机器人(如 ChatGPT)输出的准确性表示担忧,因为它可以「产生幻觉」产生虚假信息并编造参考资料。
这导致人们对科学搜索引擎产生了一些怀疑——用户表示,研究人员应该谨慎行事。人工智能研究工具面临的常见错误包括编造统计数据、歪曲引用的论文以及基于这些工具的训练系统的偏见。
瑞士洛桑大学的体育科学家 Alec Thomas 在使用人工智能工具时遇到的问题,导致他放弃了使用这些工具。Thomas 以前很欣赏人工智能搜索工具,但在发现「一些非常严重的基本错误」后,他停止使用它们。
例如,在研究患有饮食失调的人参加体育运动会受到怎样的影响时,人工智能工具总结了一篇它认为相关的论文,但实际上「它与原始查询无关」,他说,「我们不会相信一个已知会产生幻觉的人,那么我们为什么要相信人工智能呢?」
开发人员如何解决不准确的答案?
有开发人员表示,他们已经实施了安全措施来提高准确性。加利福尼亚州奥克兰 Elicit 公司的工程主管 James Brady 表示,公司非常重视准确性,并使用了多种安全系统来检查答案中的错误。
Buckland 表示,Web of Science AI 工具具有「强大的保护措施」,可以防止包含欺诈和有问题的内容。她说,在 beta 测试期间,该团队与大约 12,000 名研究人员合作,收集反馈意见。
尽管这样的反馈可以改善用户体验,但 Olson 表示,这也可能会影响幻觉。人工智能搜索工具「接受过人类反馈的训练,它们希望为人类提供良好的答案」,Olson 说,因此「它们会填补不存在的空白」。
印第安纳州印第安纳波利斯的生成式人工智能研究员 Andrew Hoblitzell 通过一个名为 AI4All 的项目在大学授课,他认为人工智能搜索工具可以支持研究过程,前提是科学家验证生成的信息。「目前,这些工具应该以混合方式使用,而不是作为权威来源」。
相关内容:https://www.nature.com/articles/d41586-024-02942-0