2024/08/30 17:19

用「图灵测试」检验AI尤其是大语言模型，真的科学吗？

当前的大型语言模型似乎能够通过一些公开的图灵测试。我们该如何衡量它们是否像人一样聪明呢？

在发布后的近两年时间里，ChatGPT 表现出了一些非常类似人类的行为，比如通过律师资格考试。这让一些人怀疑，计算机的智力水平是否正在接近人类。大多数计算机科学家认为，机器的智力水平还不能与人类相提并论，但他们还没有就如何衡量智力或具体衡量什么达成共识。

检验机器智能的经典实验是图灵测试，由艾伦・图灵在其 1950 年发表的论文《Computing Machinery and Intelligence》中提出。图灵认为，如果计算机能让与之进行打字对话的人相信它是人类，这可能就是智能的标志。大型语言模型（LLM），如 GPT，擅长像人一样说话，但尚未令人信服地通过图灵测试。

2023 年，加州大学圣迭戈分校（UCSD）的研究人员公开进行了一次图灵测试，目的是比较最新的 LLM 与 20 世纪 60 年代开发的聊天机器人 Eliza 的表现。在律师资格考试中获得高分的 GPT-4 表现相当出色，在 41% 的游戏中，评委认为它与人类无异。而它的前身 GPT-3.5 只通过了 14% 的游戏，低于 Eliza 的 27%。人类在 63% 的游戏中通过（被判定为人类）。

^{论文链接：https://arxiv.org/pdf/2310.20216v1}

负责这项实验的 UCSD 认知科学博士生 Cameron Jones 说，人类得分如此之低并不奇怪。这是因为玩家预计模型会表现出色，所以他们更容易认为人类只是一个听起来像人类的模型。Jones 说，目前还不清楚聊天机器人必须达到多少分才能赢得游戏。

图灵测试可用于检查客服聊天机器人是否以人们乐于接受的方式与人互动，从而展示 Jones 所说的灵活的社交智能。不过，它能否识别出更通用的智能还很难说。Jones 说：「我们对什么是人类的智能还不甚了解。如果我们能更快地通过模型解决这个问题，我会感到很惊讶。」

圣塔菲研究所复杂性学教授 Melanie Mitchell 说：「我认为图灵测试的整个概念都被过于字面化了。」她认为，图灵提出的「模仿游戏」是一种思考机器智能可能是什么样子的方法，而不是一种定义明确的测试。「人们轻率地使用这个术语，说大型语言模型通过了图灵测试，而事实上它们并没有通过测试。」

新的测试

不过，如果图灵测试不能可靠地评估机器智能，那就提出了一个问题：什么方法可以？普林斯顿大学心理学家 Philip Johnson-Laird 和德国开姆尼茨工业大学预测分析学教授 Marco Ragni 在 2023 年 11 月发表在《智能计算》杂志上的一篇论文中提出了一个不同的测试方法：他们建议把模型当作心理实验的参与者，看看它能否理解自己的推理过程。

例如，他们会向一个模型提出这样的问题：「如果 Ann 很聪明，那么她是聪明还是富有，或者两者都是？」虽然根据逻辑规则，可以推断出安是聪明人、富人或两者都是，但大多数人类都会拒绝这个推断，因为设定中没有任何东西表明她可能是富人。如果模型也拒绝了这一推断，那么它的行为就和人类一样，研究人员就会进入下一步，要求机器解释其推理。如果它给出的理由与人类相似，第三步就是检查源代码中模拟人类表现的组件。

这些组件可能包括一个快速推理系统、另一个更深思熟虑的推理系统，以及一个根据上下文改变「或」等词的解释的系统。研究人员认为，如果模型通过了所有这些测试，就可以认为它模拟了人类智能。

英国考文垂大学研究机器智能并进行过图灵测试的计算机教授 Huma Shah 说，Johnson-Laird 和 Ragni 的方法可能确实会提供一些有趣的见解，但质疑一个模型的推理能力并不是什么新鲜事。「图灵测试允许这种逻辑质疑，」她说。

Shah 还表示，试图测试智力的麻烦在于，这首先取决于人们如何定义智力。是模式识别能力、创新能力，还是创造音乐或喜剧等创意的能力？「因此，如果我们没有就人工智能中的『I』达成一致，那么我们怎么能建立通用人工智能（AGI）呢？」

谷歌的软件工程师和人工智能专家 Francois Chollet 则认为图灵测试并不是特别有用。他说，一个好的测试应该有一个确切的、形式化的目标，并且应该衡量一个系统有多接近这个目标。他指出：「图灵测试并没有做到这些。」

Chollet 说，LLM 在图灵测试中的表现只能说明他们擅长使用语言，而这种技能完全来自于对大量数据的记忆。他认为，真正的智能并不在于掌握某项技能，而在于把学到的知识运用到新的、不同的情境中。「LLM 百分之百都是记忆。他们没有智能。他们没有适应能力。」Chollet 说。

在他看来，智力是一种有效获得新技能的能力，而这些技能是训练过程中没有准备好的，目的是完成与系统之前所见过的任务差异足够大的任务。人类终其一生都在与世界互动，本质上是在进行实验，以便建立一个反映世界如何运行的模型。这样当他们遇到新情况时，就能学会如何处理。新技能的范围越广，计算机就越接近实现通用人工智能。

Chollet 说：「如果你能让学习过程像人类大脑一样高效地处理信息，那么你就拥有了 AGI。」到目前为止，机器的学习效率远远落后于人脑，大约比人脑低 1 万倍。例如，计算机需要数百万张图片才能学会识别猫的图片，而人类只需一两个例子就能学会识别猫。

为了测试他定义的智力，Chollet 开发了抽象与推理语料库（ARC）。ARC 的挑战是通过基本的积木，如形状或大小等简单概念来完成的。这些积木用于创建任务，如按大小对物体进行分类或补全对称图案。测试对象会看到三个示例，他们应该能够识别目标并完成任务。Chollet 说，最好的 AI 大约有 30% 的时间能够实现目标，而人类则有 80% 的时间能够做到。

^{项目链接：https://github.com/fchollet/ARC-AGI}

每项任务都不同于测试对象以前见过的任何任务，因此死记硬背无济于事。他说：「这是一场无法练习的游戏。当 GPT-4 通过律师资格考试时，很可能是因为它见过足够多与考试相似的例子，所以它能给出合理的答案，而不需要对法律有任何内在的理解。」

「这不是一个完美的测试。它有很多局限性和缺陷，」Chollet 说。例如，任务中存在足够多的冗余，在举出足够多的例子后，测试对象可能会对答案做出有根据的猜测。不过，他说，它的基本思想是可靠的。

前面提到的圣塔菲研究所复杂性学教授 Melanie Mitchell 认为，要想获得类似人类的通用智能，就必须有能力完成远远超出训练数据的任务。她和她的小组提出了 ARC 的修订版，围绕基本概念组织任务，例如一物在另一物之上，或一物在另一物之内。

ConceptARC 的理念是测试计算机解决方案的稳健性，方法是让计算机推导出一个概念的规则，然后将该概念应用到新任务中。

^{论文链接：https://arxiv.org/pdf/2305.07141}

例如，她可能会向人工智能展示一个网格，在这个网格中，黄色方格位于蓝色方格之上，而这个蓝色方格又位于黄色方格之上。接着可能是一个红色圆圈在一个绿色圆圈上面，然后又换成一个绿色圆圈在一个红色圆圈上面。人类应该很容易理解的概念是，颜色在垂直位置上互换。然后，计算机必须将这一规则应用到一对新的图形中。Mitchell 说，这些任务对人类来说很容易，但对机器来说似乎仍然非常具有挑战性。

Mitchell 说，在某些情况下，比如试图在海量数据中做出发现，计算机最好有自己的抽象方法。但在与人交互的情况下，例如驾驶汽车，以人类的方式理解世界就非常重要。

「我不认为智能是全有或全无。它是一个范围，计算机做的某些事情是智能的，」Mitchell 说。「如果你想谈论完全的、人类水平的智能，我会说我们还有些遥远，因为人类水平的智能有许多方面是我们看不到的。」

^{原文链接：https://cacm.acm.org/news/beyond-turing-testing-llms-for-intelligence/}

产业ConceptARC图灵测试

相关数据

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

图灵测试技术

图灵测试（英语：Turing test，又译图灵试验）是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验，测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道，例如计算机键盘和屏幕，这样的结果是不依赖于计算机把单词转换为音频的能力。

来源：维基百科

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

通用人工智能技术

通用人工智能（AGI）是具有一般人类智慧，可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标，也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI（strong AI）或者完全AI（full AI），或称机器具有执行通用智能行为（general intelligent action）的能力。与弱AI（weak AI）相比，强AI可以尝试执行全方位的人类认知能力。

来源：wikipedia