Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大语言模型的进步应该如何影响科学实践?科学家们给出了不同答案

图片

编辑 | 烂菜叶

大型语言模型(LLM)正越来越多地被纳入科学工作流程。然而,我们尚未完全掌握这种整合的含义。大型语言模型的进步将如何影响科学实践?

在这篇评论文章中,文章作者 Marcel Binz 团队邀请了四组不同的科学家来思考这个问题,分享他们的观点并参与辩论。

Schulz 等人认为,使用 LLM 与与人类合作者合作并没有本质上的区别,而 Bender 等人则认为,LLM 经常被误用和夸大,它们的局限性使得我们有必要关注更专业、更易于解释的工具。Marelli 等人强调了透明归因和负责任地使用 LLM 的重要性。最后,Botvinick 和 Gershman 主张人类应该保留确定科学路线图的责任。

为了促进深度讨论,四个观点都得到了其他每个小组的回应。

通过讨论这些不同的观点,论文作者旨在引起学术界对采用 LLM 及其对当前和未来科学实践的影响的重要思考。

该研究以「How should the advancement of large language models affect the practice of science?」为题,于 2025 年 1 月 27 日发布在《PNAS》。

图片

论文链接:https://www.pnas.org/doi/10.1073/pnas.2401227121

温馨提示:文章很长,ScienceAI 节选了论文部分观点进行粗略分享。

语言模型是人类语言的统计模型,可用于预测给定文本序列的下一个标记(例如单词或字符)。尽管这些模型已经存在了几十年,但它们最近经历了前所未有的复兴:通过在包含数万亿个标记的数据集上训练具有数十亿个参数的庞大神经网络,研究人员已经观察到模型的出现,其能力可以超越单纯的文本生成和对话技能。

大型语言模型(LLM)能够通过编写计算解决方案的代码来解决选定的大学数学问题,支持语言翻译,或以高精度回答律师资格考试中的问题,开箱即用,无需额外培训。考虑到这些功能的范围,这些系统似乎有可能对我们的社会产生巨大影响,在劳动力市场、教育系统和我们日常生活的许多其他方面留下印记。

因此,作为科学家,我们可能会想知道 LLM 的发展将如何影响科学实践。找到这个问题的答案迫在眉睫,因为 LLM 已经开始渗透到学术领域。例如,2022 年,MetaAI 发布了第一个针对科学的 LLM(名为 Galactica),旨在支持研究人员进行知识发现。

更近一些时候,菲尔兹奖获得者、数学家陶哲轩宣称:「2023 年的人工智能已经可以为在职数学家提供有希望的线索。当与形式化证明验证器、互联网搜索和符号数学包等工具相结合时,我预计 2026 年的人工智能将成为值得信赖的合著者。」

然而,尽管有人声称这项技术对科学进步具有巨大潜力,但也存在一些值得关注的问题。例如,上述 Galactica 模型在推出仅三天后就不得不下线,因为它遭到研究人员的严厉批评,称其伪造信息,例如「伪造论文(有时归咎于真正的作者)和关于太空熊历史的维基文章」。

此外,尽管 LLM 通常在现有基准上取得最佳表现,但这是否反映了真正的理解,还是它们只是像随机鹦鹉一样行事,仍然存在争议。例如,事实已经反复证明,即使是目前最强大的模型,在直接要求回答而不是编写代码时,也会无法解决基本的算术问题,例如将两个四位数相乘。

如果我们打算将 LLM 用于研究目的,那么这些缺陷尤其令人担忧,如果我们不小心行事,可能会危及科学的完整性。

这篇文章的目的是为研究人员提供不同的意见,并为他们提供一个论坛,让他们表达和讨论我们是否应该以及如何在科学背景下使用LLM的观点。

为了促进这一讨论,以下部分将首先重点介绍 LLM 有可能对科学产生积极影响的几个应用,然后指出随之而来的一些问题。

背景:LLM 在科学领域的应用

LLM 最明显的用途是作为科学写作的辅助工具。例如,它们可以为推荐信或评估提供起点,搜索和总结相关研究,以及审查或编辑期刊投稿。当用作稿件草稿的校对员时,它们可以帮助纠正语法错误,改进写作风格,并确保遵守编辑指南。除了科学写作之外,LLM 在传统上依赖人工工作的领域的数据采集和分析方面也大有裨益。研究人员甚至建议将LLM作为人类参与者的潜在替代品,作为代理或试点研究。在这种情况下,有人认为 LLM 可以增强人类数据或在野外开展研究之前帮助评估预期实验操作的效果,从而节省时间和金钱。在计算领域,LLM 可以通过提出代码来加速原型设计,而人机交互将指导这些过程,纠正 LLM 产生的错误,并最终决定哪些想法值得进一步研究。此外,研究人员可能会尝试在研究的某些阶段使用 LLM,并逐步减少监督,这可能会提高科学探索和发现某些方面的自动化程度。

虽然 LLM 对科学实践的潜在影响巨大,但在科学背景下使用 LLM 也存在一些紧迫的问题。当 LLM 帮助我们撰写文本时,谁能确保其输出不存在抄袭问题?LLM 从网络文本数据中学习,获得固有偏见,在某些情况下,还会复制训练数据的摘录。例如,《纽约时报》最近对微软和 OpenAI 提起诉讼,指控其非法使用其文章创建 LLM,从而凸显了此类做法的法律问题。

当LLM用于数据分析时,如果数据被篡改或更改,会发生什么?LLM生成的内容可能包含错误或捏造的信息,对科学出版的完整性构成潜在威胁。当LLM提出一个想法时,谁会得到它的荣誉?科学界的普遍共识似乎表明,LLM 没有资格成为(共同)作者,因为他们不能对维护科学的精确性和完整性负责。ICML 和 ACL 等领先的人工智能会议以及《Science》、《Nature》和《PNAS》等期刊已经采取政策限制 LLM 的参与。然而,这些规定应该有多严格,以及是否应该承认LLM的使用以及如何承认,仍是一个悬而未决的问题。

这些问题以及其他许多问题都提出了这样的问题:LLM 的发展应该如何影响科学实践?LLM 真的能提高我们的科学产出吗?还是说它们反而阻碍了良好的科学实践?考虑到它们带来的伦理和法律问题,应该在多大程度上加以利用?

这些问题非常棘手,没有直观的标准答案,因此这里邀请了四组研究人员就这些问题提供他们的观点。

观点一:LLM 更像是人类合作者而不是软件工具

观点来源:Eric Schulz、Daniel Schad、Marcel Binz、Stephan Alaniz、Ven Popov 和 Zeynep Akata

我们实验室的大多数研究人员已经在日常工作中频繁使用 LLM。他们使用 LLM 进行微调和修改草稿、作为编程的辅助工具、为问卷或实验说明等研究项目提出方案以及总结研究论文等。在这些模式被广泛采用后,我们观察到所有这些领域的质量都有显著提高。虽然我们的个人经验可能有偏差,但有几项研究支持 LLM 可以促进写作、编码和知识提取的观点。在未来,我们希望这些模型能够更加深入地融入到科学过程中,承担类似于合作者的角色,可以与之一起开发和讨论想法。

事实上,我们认为与LLM合作与与其他合作者(如研究助理或博士生)合作并没有根本区别。LLM并不完美,存在一些局限性和偏见,可能会影响其表现和产出。然而,人类也会犯同样的错误,比如犯错、剽窃、捏造或歧视。从这个角度来看,我们似乎应该将当前的LLM视为知识渊博的研究助理,而不是传统的软件工具:他们可以完成非凡的工作,但我们需要意识到他们也会犯错。

保护过去

确保工作质量和完整性是我们的主要责任。目前已经有关于科学实践的规则和规范来确保这一点,其中许多也适用于LLM。例如,我们应该始终检查我们获得的信息和数据的准确性和有效性,无论其来源如何,并正确引用我们使用的来源和方法。这意味着我们不应该盲目地信任或依赖LLM,而应该将其作为我们自身专业知识和判断力的补充。此外,只有当有关其方法论的所有信息都透明地传达时,我们的工作才能受到适当的批评。因此,我们应该承认LLM对我们研究的贡献,就像承认任何其他工具一样。归根结底,无论我们是否使用LLM,作者都有责任确保遵循适当的科学标准,并且将继续如此。

确保我们的研究具有可重复性是现代科学的基石之一。然而,由于许多 LLM 都是专有的,因此与它们合作会对这一理想构成威胁。没有人能保证 OpenAI、Google 或其他提供商不会对其模型进行更改(在最坏的情况下,不会通知用户)。事实上,我们在修改一篇论文的过程中就遇到过这种情况,在某个时候,我们无法重现最初的结果,这可能是由于提供商方面的变化造成的。

同样,Yax 等人也观察到了这一点,他们测试了 LLM 的推理能力,发现专有 LLM(即 ChatGPT 和 GPT4)的结果在初始实验三个月后无法复制。他们的分析还发现,令人惊讶的是,一些测试的分数显著下降,这说明专有 LLM 存在可靠性问题。在分析此类模型的行为时,此类不一致可能会成为问题。我们应该如何处理此类情况?我们认为,解决此问题的明显方法是依赖开源模型,人们可以完全控制模型的各个方面,即它们可以在本地运行,并且可以通过发布版本明确标识以确保可重复性。因此,根据最近向欧洲议会提出的行动呼吁,我们强烈主张开发此类模型,以便它们能够成为科学研究的主要工具,因为它们正在迅速赶上最先进的专有模型。

迎接未来

论文评审是 LLM 可以改善我们的科研流程的另一个领域。在最近的一项研究中,Liang 及其同事通过系统地评估 LLM 生成的评审质量展示了这一潜力。他们邀请研究人员提交自己的论文,并要求他们在收到 LLM 生成的评审后,判断其相对于他们从人类研究人员那里收到的评审是否有用。

他们的研究结果表明,「超过一半(57.4%)的用户认为 GPT-4 生成的反馈很有帮助或非常有用,82.4% 的用户认为它比至少一些人类审阅者的反馈更有益。」这一结果不仅使科学家(特别是早期职业研究人员)能够获得高质量、即时的反馈(类似于从具有无限时间的批判性同事那里获得的反馈),而且对同行评审过程也具有影响。

然而,在同行评审过程中使用 LLM 也存在一个主要的法律障碍:评审稿件通常是保密的,因此不应进入专有的 LLM。为了防止此类违反保密性的行为,NIH 和其他机构制定了禁止使用 LLM 进行同行评审的规则。本地托管的开源模型再次解决了这个问题,因为它们可以控制哪些信息可以与外部来源共享,哪些信息不能共享。

我们还想指出,LLM 是一个不断变化的目标,它不断发展,变得更加强大和自主。这可能会给未来的科学界带来新的挑战和问题,例如如何评估、解释和传达 LLM 产生的成果,或者如何确保其透明度和责任制。我们欢迎这些挑战,将其视为推进我们对科学的理解和方法的机会。我们还鼓励研究人员相互合作并与 LLM 开发人员合作解决这些问题,并确保 LLM 改进经常受到批评的技能,例如提供真实的来源或承认无知。

结论

总之,LLM 是科学的宝贵财富,应该受到欢迎,而不是害怕或限制。一旦我们开始将它们视为知识渊博的研究助手而不是传统的软件工具,就会发现它们并不是万无一失的机器。此外,由于良好的科学实践规则已经存在,并且作者有义务负责遵守这些规则,因此使用 LLM 不需要新的规则。我们认为,加强开源替代方案的开发应该是我们的首要任务之一,因为它们「由于其透明度和广泛的社区监督而提供了增强的安全性、可解释性和稳健性」。最后,意识到LLM目前的局限性并接受它们,将使我们能够随着 LLM 研究找到补救措施并开发互补工具而与技术一起成长。我们希望通过采用这种自由主义的观点,我们可以在科学领域培养人类与 LLM 之间的积极和富有成效的关系。为了说明如何有效地利用 LLM 作为「助手」,我们的观点的初稿是由一名 LLM(GPT-4;2023 年 9 月 22 日访问)根据我们的会议记录撰写的。

观点二:科学是一个无法自动完成的社会过程

观点来源:Emily M. Bender、Carl T. Bergstrom 和 Jevin D. West

在决定是否使用 LLM 时,重要的是要认识到 LLM 只是从文本中提取的词形分布模型,而不是人们通过阅读文本可能获得的信息的模型。尽管这些系统令人兴奋,但它们与 Dreyfus 批评的系统相比,并没有更接近复制人类智能。最初,语言模型用于对文本进行排序或分类。例如,在自动转录中,声学模型提供了一组可能性,语言模型帮助确定最有可能的下一个单词。然而,如今,LLM 因其通过反复选择下一个可能的标记来挤出合成文本的能力而备受推崇。

经过足够大的数据集训练,并采用经过充分调优的架构和训练流程,LLM 似乎能够针对几乎任何主题(包括科学主题)生成连贯的文本。此外,我们很容易将其误认为有用或信息丰富的文本,因为我们的语言处理能力是本能和反射性的。换句话说,我们无法有效地评估 LLM 输出,因为我们忍不住要理解它。

支持者认为,LLM在三个领域很有用:1)通过搜索和综合已发表的文献来探索科学,2)通过设计或进行实验或生成数据来开展科学研究,3)通过起草出版文本来传播科学。

虽然某些机器方法可能对每种方法都很有用,但我们认为 LLM 不太可能胜过其他技术。此外,如果 LLM 被广泛使用,我们非常担心其可能对科学造成危害。

探索科学

自然语言处理 (NLP) 已被证明在整理日益增多的科学文献方面非常有用。学术搜索引擎中实施的信息检索和提取技术已帮助研究人员发现相关的先前工作。LLM 会取代其他 NLP 方法吗?我们对此表示怀疑。LLM 作为文本生成器和合成机器的不合适在 Meta 的 Galactica 惨败中得到了强调。该系统——由于其糟糕的性能而受到强烈批评,在三天后下线——曾接受过科学文本的训练,并被宣传为一种「总结学术论文、解决数学问题、生成 Wiki 文章、编写科学代码、注释分子和蛋白质等」的工具。但对 LLM 进行科学论文培训并不能保证其输出的科学信息准确无误。正如 Meta 发现的那样,使用 LLM 所得到的文本没有任何交流意图或准确性责任。

人们可能希望 LLM 至少可以用来总结一组论文。提取式摘要系统已经做到了这一点;LLM 的表现会更好吗?人们会倾向于过度依赖系统输出,而不是将其作为起点吗?假阴性(即生成的摘要中未包含的重要点)的代价是什么?LLM 产生的错误(随后成为未来 LLM 的训练数据)将如何被放大?

做科学

LLM 只是众多被称为「AI」的技术之一,但它们令人惊讶地能够完成相当于花哨的客厅戏法,引起了极大的关注。这是错误的。LLM 可能足以完成特定的语言任务,例如语法检查、自动转录和机器翻译(包括代码生成),但我们预计,对于涉及混合人机科学的大多数任务,它们不会像其他工具那样有效。即使它们看起来确实有点效果,但众所周知,它们对输入变化很敏感。我们设想的机器辅助科学的未来不是大规模、一刀切、通用的 LLM 应用,而是一组定制的、通常轻量级的模型,这些模型专门为解决手头的特定任务而设计,而且,至关重要的是,根据这些特定任务进行评估。在可解释性方面,这种方法也具有重大优势。如果研究人员想要了解输出变化,更不用说找到微调架构以产生更好结果的方法,他们需要避开像 LLM 这样不透明的技术。但相反,围绕 LLM 的持续炒作正在吸引资金和人才,让他们远离更有前景、更有针对性的方法。

人们不仅在探索LLM作为研究人员的助手,许多提案还建议LLM可以代替测试对象、调查参与者或数据注释者。这些论点源于人们没有理解LLM输出的是语言标记序列,而不是概念、含义或交流意图。如果我们想研究人类的观点或行为,我们需要与真实的人一起工作。

传播科学

从设计上来说,LLM 只产生形式而没有实质内容。系统输出的合成文本既不构成想法,也不构成数据——而且它肯定不是一个可靠的信息来源。这种生成没有人想要的陈述的想法与科学探究的精神背道而驰。自动生成看起来像手稿的东西与实际撰写手稿的迭代过程非常不同。

然而,成果可能难以区分,尤其是粗略阅读或非专业读者。一些支持者认为,LLM可以让科学家从撰写论文的繁琐工作中解脱出来,让他们有时间从事「做科学」的严肃工作。

这种交流与研究之间的错误二分法反映了对科学本质的根本误解,这种误解贬低了科学的交流方面,忽视了写作在制定、组织和提炼思想过程中的作用。

下游,LLM威胁到科学专业知识的概念,改变了激励结构,并破坏了人们对文献的信任。LLM输出固有的随机性削弱了系统性评论的概念。最重要的是,当有人使用LLM生成文献评论时,生成的声明并非直接来自所引用的手稿。相反,机器会创建文本主张,然后预测可能与类似文本相关的引用。显然,这种做法违反了学术引用的所有规范。LLM充其量只能向巨人的肩膀示意。

在量化指标和强烈的发表动机的驱动下,研究人员可能会选择以牺牲质量换取速度,让LLM完成大部分写作工作。一个或几个LLM的广泛使用可能会削弱科学界的认知多样性。当被要求提供假设、实验或解释模式时,LLM可能会反复提供类似的解决方案,而不是利用整个科学界的并行创造力。

更糟糕的是,投机取巧或恶意行为者可能会利用 LLM 以最小的成本大规模生成无意义的内容。(这并不是反对适当使用 LLM 的理由,但我们需要为这种行为做好准备。)懒惰的作者可以通过将机器生成的论文大量投递到低质量的期刊来增加他们的出版数量。掠夺性出版商可能会利用LLM论文假装同行评审。恶意行为者可能会用大量虚假论文淹没目标期刊(甚至是目标领域)的稿件提交系统。或者,研究人员的工作可能会在 Pubpeer 等出版后同行评审平台上成为大量虚假机器生成的批评的目标。

最后,LLM可能会对科学教育造成相当大的附带损害。例如,随着LLM大幅削减生成看似权威的文本的成本,网络上将充斥着低质量、错误百出的教程,这些教程旨在获取广告收入。目前,搜索引擎的鉴别能力或多或少是唯一的防线。这令人担忧。

结论

总之,LLM 经常被误解、滥用和夸大,但它肯定会影响我们从事科学研究的方式,从研究到实验设计再到写作。我们现在围绕其使用建立的规范将决定未来的后果。我们应该谨慎行事——并在每一步都进行评估。

观点三:科学实践中的 LLM 关乎原则,而不仅仅是规章制度

观点来源:Marco Marelli、Adina Roskies、Balazs Aczel、Colin Allen、Dirk Wulff 和 Qiong Zhang

关于LLM对科学实践的潜在影响,有一种温和的观点认为,虽然注意危险很重要,但它们的应用似乎在很大程度上是有益的,因为它们为日常研究活动提供了急需的支持,并可能减轻科学进步的主要障碍。当 LLM 用作编辑工具时,这一点很明显:它们提供了写作帮助,使研究人员有更多时间集思广益并进行分析,可能有助于缓解不同科学界之间的差异,并弥补非英语母语研究人员的一些劣势。此外,LLM可以接触到比任何单个研究人员更广泛的文献,从而可能为文献分析和假设生成提供宝贵的支持,而且,抛开偏见,其范围超越了个人的研究专业。

然而,尽管任何新技术都可能有害或有益,但有些技术比其他技术更能带来危害或帮助。对LLM的依赖具有越来越明显的破坏性潜力,如果目标是防止「邪恶漂移」,就必须遏制这种破坏。一种观点可能认为需要严格的监管,限制此类系统在研究工作的不同阶段的应用,但监管会带来许多成本,如果保持适度,最好可以避免这些成本。一个更好的方法可能是制定明确的原则来指导这项技术的使用方式,这些原则不能只关注效率和整体效用。这些原则包括透明度、问责制和公平性。

透明度问题

在科学领域,透明度具有不可或缺的价值。当用作写作工具时,研究人员必须承认对 LLM 的依赖,以便读者注意到文本(至少部分)是由 AI 生成的。作者应在方法部分或单独的专用声明中明确说明应用了哪些 LLM 以及如何应用。这可以通过依赖现有的解决方案来实现;例如,即使人工智能不被视为共同作者,CrediT 分类法也可以用来编码人工智能贡献的性质。

理想情况下,本着开放科学的精神,在可能和可行的情况下,作者应公开发布他们的提示以及相应的 LLM 答复作为补充材料,并在手稿中引用此类档案。考虑到作者已经必须对其文章的内容负责,人们可能会质疑这样做的价值。

但鉴于 LLM 的训练数据与其输出之间的关系不透明,没有作者能够完全验证 LLM 生成的文本是否来源正确。读者应该得到警告。有人可能会进一步质疑我们的建议,理由是它可能会让非母语作者蒙羞。然而,表明 LLM 的用途(是否仅仅清理作者提供的文本或从其他类型的提示生成文本)将减轻这种担忧并为读者提供重要的源信息。

重要的是,透明度不仅涉及我们利用 LLM 的方式,还涉及系统本身。严格来说,LLM 并不是什么新东西。几十年来,在结构、精神和基本机制上与当前 LLM 类似的模型一直是科学争论的一部分。然而,这些旧模型即使没有公开发布,其架构和训练也毫不含糊。当前的 LLM 通常不符合其祖先的科学标准,即使其内部工作原理和训练数据仍未公开,也得到了广泛的应用。

问责问题

必须承认,LLM 是人类能动性的工具,研究人员应该对他们向社区呈现的任何科学成果负责,无论这些成果在多大程度上是通过应用自动化系统获得的。人工智能促进协会在这方面发布了明确的指导方针:「作者归属意味着对作品负责,这不能有效地应用于人工智能系统……最终,所有作者都要对其论文的全部内容负责,包括正文、图表、参考文献和附录。」例如,众所周知,LLM 容易「产生幻觉」,做出与事实不符的回答。

他们伪造书目引文,在总结文献时省略重要参考文献,并可能剽窃其他研究人员撰写的文本。即使这种情况正在迅速改变,事实性是当前发展的核心问题,核实 LLM 撰写的文本是否准确以及 LLM 校对的文本是否与原始信息一致的责任仍然落在各个作者身上。

同样,LLM 在逻辑和演绎任务中的表现通常很差,因此用它们进行分析可能会导致错误的结论。用户有责任确保 LLM 的成果值得追求。因此,研究人员必须制定评估人工智能相关内容的策略;一个好的做法是在使用 LLM 之前定义明确的质量标准和验证方法,因为这已经是编程行业的标准做法。科学家不应低估此类审查所花费的时间和精力,并应权衡 LLM 请的效率与这些成本。文本生成所节省的时间可能会被验证所生成文本所需的时间所抵消。

公平问题

人工智能系统(尤其是 LLM)的传播可能会对我们社会产生深远影响。科学和任何人类活动一样,都无法幸免。作为一个社区,我们必须尽一切努力确保对 LLM 的依赖不会违反基本的公平原则。事实上,目前的语言模型主要反映的是 WEIRD(西方受教育的工业化富裕民主国家)人群,很难被提示代表非 WEIRD 社区。这导致写作和注释中存在偏见,可能会加剧引用中的扭曲,并加剧已经边缘化的科学家的边缘化。它还可能导致在传达和解释影响个人和公共决策的社会、道德和政治价值观相关的结果时出现偏见。

此外,LLM 的广泛应用可能会对公平研究产生负面影响;事实上,这种系统也更容易被 WEIRD 人群所接受,即使在 WEIRD 国家内,在获取此类技术的最佳版本的能力方面也会存在很大差异,而这些技术的最佳版本通常需要付费才能获得。

必须认识到并考虑到这些系统模式,以避免不合原则的偏见影响研究方向,甚至可能影响职业生涯的相对成功。更普遍地说,意识到这些偏见(例如,通过调整 LLM 提示)可以帮助减轻它们对整个社会的影响。

结论

LLM 对科学实践的影响不容低估。鉴于目前的趋势,当您阅读这些文字时,这种影响可能会比我们撰写本文时大得多。LLM 的发展将如何影响未来的科学实践尚无法完全预测;用严格的、先入为主的规范来对抗这种革命是一场必败之战。相反,在科学界建立原则和共同价值观是管理这些快速变化的技术的理想基础。健康的怀疑态度是任何科学事业的支柱。我们需要培训学生和彼此以这些原则为基础,以便对LLM及其成果保持适当的怀疑态度。

观点四:科学是为人类服务的,人工智能可以提供帮助

观点来源:Matthew M. Botvinick 和 Samuel J. Gershman

与许多技术一样,人工智能可以替代人类的工作。随着 LLM 的进步,相关工作开始与人类高级认知工作重叠,包括科学活动。随着 LLM 的进步,它们替代人类科学工作的能力将是一个重大的福音。然而,我们在这里认为,科学工作的两个核心方面应该留给人类科学家。

人工智能和科学工作

随着时间的推移,科学研究的工作变得越来越繁重,有时甚至到了难以处理的边缘。面对日益庞大的文献,吸收现有知识变得越来越困难。提出新问题、假设和实验测试变得更具挑战性,因为每个问题、假设和实验测试所涉及的搜索问题都变得越来越复杂。

随着数据集的大小和复杂性激增,从实验结果中得出结论变得越来越困难。由于同行评审系统负担过重等原因,交流和辩论科学结论也变得更加困难。鉴于这些方面的科学工作成本不断增加,多个科学领域的进展似乎放缓也就不足为奇了。

从长远来看,人工智能可能会帮助我们应对日益增长的科学工作需求。通过上文介绍的各种应用,人工智能可能会帮助我们扩大规模,使研究周期中的每一步都更便宜。在某些情况下,人工智能最终可能会比人类科学家更好地完成某些形式的科学工作,包括产生新假设的工作。即使以现在的形式,人工智能也可能在某些方面发挥作用,正如引言中所述。当然,正如广泛讨论的那样,目前的系统太不可靠了,如果不谨慎和监督就无法部署(参见随附的评论),只有时间才能告诉我们克服当前限制的可行性。

然而,除了解决当前的不足之外,展望未来并考虑从长远来看我们真正想要什么样的人工智能工具也同样重要。鉴于人工智能可以应用于科学工作的所有阶段,一个目标可能是培养一名成熟的人工智能科学家,能够做人类科学家现在所做的一切:成为人类科学家的全方位替代品。

对我们来说,这种前景非常不吸引人。为什么?因为即使在技术限制不构成障碍的情况下,我们根本不想将科学的某些方面委托给人工智能。特别是,科学的两个核心方面应该留给人类。正如我们现在所解释的那样,其中一个是规范性的,另一个是认识论性的。

科学的规范性方面

任何科学学科都必须不断问自己:我们应该研究什么问题?无论是在单个实验室还是在整个研究团体中,如何回答这个问题都是一个复杂的事情,但它的核心在于对候选问题的「兴趣」和「重要性」的判断,以及它们的「时效性」,包括它们在现行材料和道德约束下是否适合研究。

这些判断是基于硬数据得出的;我们显然不能将它们归结为纯粹的社会建构。然而,与此同时,对有趣性、重要性和时效性的判断本质上与文化和历史根基上的情感和习俗息息相关。这并不是科学思想和程序的腐败或不纯洁。文化情感和思维模式是科学优先排序的基础。

这一点对于学习科学史的学生来说尤其重要,因为影响科学的情感和习俗会随着时间的推移而演变。正如科学理论会随着时间的推移而变化一样,科学所依赖的道德承诺和知识优先权也会随着时间的推移而变化。显而易见的是,我们不再将同性恋视为一种疾病,也不再从优生学的角度研究遗传学。动物实验受到越来越多的限制。西方气候学家现在开始关注历史上被忽视的地区。

我们认为,无论人工智能系统变得多么强大,科学的规范性方面都不应被割让给人工智能系统。人类应该继续掌控方向,决定科学的发展方向。当然,人工智能系统可能是审议过程中的有益伙伴,尤其是随着人工智能价值观协调技术的进步。然而,将系统与当前流行的人类观点相一致不同于让该系统控制人类观点的演变。在科学领域,这种演变的最终驱动力应该仍然是人类。我们是房间里的道德主体,我们不应该忘记这一点。

科学的认识论方面

基础科学的核心目标是理解自然世界。如果我们要用人工智能工具进行科学研究,就会出现一个问题:「谁的」理解重要?如果人工智能系统能够成功地模拟自然的各个方面(例如,反映在准确的预测中),但不能直接促进人类对基本原理或机制的认识,这是否令人满意?从工程角度来看,这可能没什么问题。但是,如果我们谈论的是基础科学,我们就不应该放弃核心目标,这不仅是实用的,也是认识论的。我们不能把理解权拱手让给人工系统。我们应该坚持让人类理解成为科学的核心目标。

当然,由于人类认知的局限性,人工智能系统可能有一天能够代表我们无法代表的自然界的某些方面,就像现有的人工智能系统能够掌握复杂的棋盘游戏的某些方面,而这些方面甚至连高水平的人类玩家都无法掌握。然而,即使在这些情况下,我们也应该努力从人工智能系统中提取尽可能多的人类洞察力。我们不应该忘记基础科学的用途。这并不妨碍利用人工智能的预测进步来辅助人类洞察;AlphaFold 等预测系统目前正被用于推动基础科学的发展。我们的观点是,基础科学的本质人类目标不能完全被预测技术所取代。

结论

人工智能有望在科学领域和许多其他领域发挥巨大价值。我们认为应该充分利用它的潜力。然而,在努力突破人工智能的现有限制以获取其优势的同时,我们也应该思考开发这项技术的长期目标。

最后,我们提议保护的两个科学领域——一个是规范性的,另一个是认识论性的——是人工智能适当领域的更普遍界限的两个体现。我们可以称之为主观限制。与人工智能系统不同,人类有「观点」,而这种观点无法被自动化,因为它本质上是主观的。

这种观点包括对我们有意义的知识(认识论观点)和对我们有意义的价值观(规范性观点)。机器可能有自己的知识或价值观,这些知识或价值观可能与我们的一致,但一致性问题从根本上与我们的主观观点有关。这一原则适用于科学,也适用于所有以人为中心的活动。

……

文章很长,后续还有许多回应观点,非常有思考价值,感兴趣的朋友可以读下原论文。

论文链接:https://www.pnas.org/doi/10.1073/pnas.2401227121

入门
暂无评论
暂无评论~