2023/02/15 14:17

张倩、陈萍编辑

ChatGPT真的是「通才」吗？杨笛一等人给它来了个摸底考试

ChatGPT 真的是「通才」吗？单拎出哪项能力都能完胜其他模型吗？哪些任务是 ChatGPT 擅长的，哪些不是？为了系统地探索这些问题，南洋理工大学博士生 Chengwei Qin、斯坦福大学计算机科学助理教授杨笛一等人进行了大量实验。

论文链接：https://arxiv.org/pdf/2302.06476.pdf

大型语言模型（LLM）已经被证明能够解决各种自然语言处理（NLP）任务，而且对于给定的下游任务，它们不依赖任何训练数据，借助适当的 prompt 就能实现模型调整。这种根据指令执行新任务的能力可以被视为迈向通用人工智能的重要一步。

尽管目前的 LLM 在某些情况下取得了不错的性能，但在 zero-shot 学习中仍然容易出现各种错误。此外，prompt 的格式可以产生实质性的影响。例如，在 prompt 中添加「Let’s think step by step」，模型性能就能得到显著提升。这些限制说明当前的 LLM 并不是真正的通用语言系统。

近日，OpenAI 发布的 ChatGPT LLM 在 NLP 社区引发极大关注。ChatGPT 是通过「人类反馈强化学习（RLHF）」训练 GPT-3.5 系列模型而创建的。RLHF 主要包括三个步骤：使用监督学习训练语言模型；根据人类偏好收集比较数据并训练奖励模型；使用强化学习针对奖励模型优化语言模型。通过 RLHF 训练，人们观察到 ChatGPT 在各个方面都具有令人印象深刻的能力，包括对人类输入生成高质量的响应、拒绝不适当的问题以及根据后续对话自我纠正先前的错误。

虽然 ChatGPT 显示出强大的对话能力，但与现有的 LLM 相比，NLP 社区仍然不清楚 ChatGPT 是否获得了更好的 zero-shot 泛化能力。为了填补这一研究空白，研究者们通过在涵盖 7 个代表性任务类别的大量 NLP 数据集上对 ChatGPT 进行评估，系统地研究了它的 zero-shot 学习能力。这些任务包括推理（reasoning）、自然语言推断（natural language inference）、问答（阅读理解）、对话、摘要、命名实体识别和情感分析。借助广泛的实验，研究者旨在回答以下问题：

ChatGPT 是一个通用的 NLP 任务求解器吗？ChatGPT 在哪些类型的任务上表现良好？
如果 ChatGPT 在某些任务上落后于其他模型，那原因是什么？

为了回答这些问题，作者根据实验结果比较了 ChatGPT 和最先进的 GPT-3.5 模型 (text-davinci-003) 的性能。此外，他们还报告了 FLAN、T0 和 PaLM 等近期工作的 zero-shot、微调或 few-shot 微调结果。

主要结论

作者表示，据他们所知，这是第一次有人对 ChatGPT 在各种 NLP 任务上的 zero-shot 能力进行研究，旨在提供 ChatGPT 的初步概况。他们的主要发现如下：

虽然 ChatGPT 作为一个通才模型显示了一些可以执行多个任务的能力，但它通常比针对给定任务进行微调的模型表现要差（见图 1 和第 4.3 节）。
ChatGPT 的卓越推理（reasoning）能力在算术推理任务中得到了实验证实（第 4.2.1 节）。然而，ChatGPT 在常识、符号和逻辑推理任务中的表现通常不如 GPT-3.5，例如通过生成不确定的响应可以看出来（第 4.2.2 节）。
ChatGPT 在偏向于推理能力的自然语言推断任务（第 4.2.3 节）和问答（阅读理解）任务（第 4.2.4 节）方面优于 GPT-3.5，例如确定文本对中的逻辑关系。具体来说，ChatGPT 更擅长处理与事实一致的文本（即，更擅长对蕴含而不是非蕴含进行分类）。
ChatGPT 在对话任务方面优于 GPT-3.5（第 4.2.5 节）。
在摘要任务方面，ChatGPT 会生成更长的摘要，比 GPT-3.5 表现要差。然而，在 zero-shot 指令中明确限制摘要长度会损害摘要质量，从而导致性能降低（第 4.2.6 节）。
尽管显示出作为通才模型的前景，但 ChatGPT 和 GPT-3.5 在某些任务上都面临挑战，例如序列标注（第 4.2.7 节）。
ChatGPT 的情感分析能力接近 GPT-3.5（第 4.2.8 节）。

方法

如前文所述，该研究主要比较了 ChatGPT 和 GPT-3.5 (textdavinci-003) 在不同任务下的 zero-shot 学习性能。具体而言，他们将任务指令 P 和测试问题 X 作为输入，模型用 f 表示，然后生成目标文本 Y = f (P, X) 来解决测试问题。不同任务的指令和输入格式如图 2 和图 3 所示。

包含六种任务（情感分析、自然语言推理、命名实体识别、问答、对话和摘要）的指令和输入格式。指令为蓝色字体。

推理任务说明。

举例来说，当模型执行情感分析任务时，任务指令 P 将文本所包含的情感标记为积极或消极，则输出的答案为积极或消极。当模型在阅读了指令 P 和输入内容 X（内容为一部具有相当力量和真实性的令人惊叹的抒情作品）后，该模型经过判断，有望输出 Y 积极。

与上述单阶段 prompting 方法不同的是，该研究使用两阶段 prompting（Kojima 等人提出），来完成 zero-shot-CoT。

第一阶段采取「让模型一步一步思考（Let’s think step by step）」，指令 P_1 诱导模型生成基本原理 R。

第二阶段采用第一步生成的基本原理 R 以及原始输入 X 和指令 P_1 作为新的输入，引导模型生成最终答案。

之后一个新的指令 P_2 作为提取答案的触发语句。所有任务指令均取自 Brown、Ouyang、Zhang 等人研究，或受其启发。最后需要注意的是，每次对 ChatGPT 进行新的查询时，都要提前清除对话，以避免前面示例的影响。

实验

实验用 20 个不同的数据集来评估 ChatGPT 和 GPT-3.5，涵盖 7 类任务。

算术推理

ChatGPT 和 GPT-3.5 在没有或有 CoT 的情况下，在六个算术推理数据集上的准确率如表 2 所示。在没有 CoT 的实验中，ChatGPT 在其中 5 个数据集上的性能优于 GPT-3.5，显示了其强大的算术推理能力。

图 4 显示了 GPT-3.5 给出错误答案的情况。在图的左侧，问「温迪在玩电子游戏，有 43 条命。在游戏的艰难部分，她失去了 8 条生命。如果她在下一关多得到 39 条命，她会有多少条命？」ChatGPT 给出了正确答案。然而，GPT-3.5 生成了一个错误的答案。可以看出，在使用 CoT 时，ChatGPT 的性能都比 GPT-3.5 好得多。

常识、符号和逻辑推理

表 3 报告了 ChatGPT 与流行 LLM 在常识、符号和逻辑推理数据集上的准确率。可以得到如下观察结果：首先，使用 CoT 可能并不总是在常识推理任务中提供更好的性能，常识推理任务可能需要更细粒度的背景知识。其次，与算术推理不同，ChatGPT 在很多情况下的表现都比 GPT-3.5 差，说明 GPT-3.5 的相应能力更强。

为了分析原因，该研究在图 5 中展示了 ChatGPT 的几个失败案例。我们可以观察到 ChatGPT 很容易产生不确定的响应，从而导致性能不佳。

自然语言推理

表 4 展示了不同模型在两个自然语言推理任务上的结果：RTE 和 CB。我们可以看到，在 zero-shot 设置下，ChatGPT 可以取得比 GPT-3.5、FLAN、T0 和 PaLM 更好的性能。这证明 ChatGPT 在 NLP 推理任务中，具有较好的 zero-shot 性能。

问答

表 6 报告了不同模型在 BoolQ 数据集的准确率，ChatGPT 优于 GPT-3.5 。这表明 ChatGPT 可以更好地处理推理任务。

对话

表 8 中显示了 ChatGPT 和 GPT-3.5 在 MuTual 数据集（多轮对话推理）上的准确率。正如预期的那样，ChatGPT 大大优于 GPT-3.5。

图 6 为一个具体的示例，我们可以看到 ChatGPT 能够更有效地对给定的上下文进行推理。这再次印证了 ChatGPT 超强的推理能力。

生成摘要

表 9 报告 ChatGPT 和 GPT-3.5 在 SAMSum 数据集上的 ROUGE 得分，令人惊讶的是，ChatGPT 在所有指标上都不如 GPT-3.5。

命名实体识别

表 10 报告了 ChatGPT 和 GPT-3.5 在 CoNLL03 上的 zero-shot 性能。我们可以看到 ChatGPT 和 GPT-3.5 的整体性能非常相似。

情感分析

表 11 比较了不同模型在情感分析数据集 SST2 上的准确率。令人惊讶的是，ChatGPT 的表现比 GPT-3.5 差了大约 1%。

如需了解更多内容，请参考原论文。

入门杨笛一ChatGPT

相关数据

逻辑推理技术

逻辑推理中有三种方式：演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

来源：Wikipedia

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

命名实体识别技术

命名实体识别（NER）是信息提取（Information Extraction）的一个子任务，主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别，如在招聘信息中提取具体招聘公司、岗位和工作地点的信息，并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注，根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此，命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督（supervised）、半监督（semi-supervised）和无监督（unsupervised）三类。有监督学习包括隐形马科夫模型（HMM）、决策树、最大熵模型（ME）、支持向量机（SVM）和条件随机场（CRF）。这些方法主要是读取注释语料库，记忆实例并进行学习，根据这些例子的特征生成针对某一种实例的识别规则。

来源：David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真（蕴涵），假（矛盾）还是未确定（中立）的任务。

来源：nlpprogress

模型优化技术

像卷积神经网络（CNN）这样的深度学习模型具有大量的参数；实际上，我们可以调用这些超参数，因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值，但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构，他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

来源：机器之心

通用人工智能技术

通用人工智能（AGI）是具有一般人类智慧，可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标，也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI（strong AI）或者完全AI（full AI），或称机器具有执行通用智能行为（general intelligent action）的能力。与弱AI（weak AI）相比，强AI可以尝试执行全方位的人类认知能力。

来源：wikipedia

常识推理技术

常识推理是人工智能（AI）的一个分支，它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性，目的，意图和行为的判断，以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学（人类对人们的行为和意图进行推理的天生能力）和天真物理学（人类对物理世界的自然理解）的结论。

来源：维基百科

语言模型技术

统计式的语言模型是借由一个几率分布，而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。

来源：维基百科

算术技术

算术（英语：arithmetic）是数学最古老且最简单的一个分支，几乎被每个人使用着，从日常生活上简单的算数到高深的科学及工商业计算都会用到。一般而言，算术这一词指的是记录数字某些运算基本性质的数学分支。

来源：维基百科

命名实体识技术

命名实体识别（英语：Named Entity Recognition，简称NER），又称作专名识别、命名实体，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，以及时间、数量、货币、比例数值等文字。指的是可以用专有名词（名称）标识的事物，一个命名实体一般代表唯一一个具体事物个体，包括人名、地名等。

来源：维基百科