Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了

最近一段时间,随着 OpenAI o1 模型的推出,关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出,只要给模型一些干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「废话」,OpenAI o1 就翻车了,苹果新论文质疑 AI 推理能力》)。这种现象被归结为「当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤」。然而,事实真的是这样吗?谷歌 DeepMind 的一篇论文似乎得出了相反的结论。


最近,DeepMind 今年 2 月份的一篇论文在社交媒体上掀起了一些波澜。
图片
                               关于该论文的早期报道。

这篇论文题为「Grandmaster-Level Chess Without Search」。文中介绍说,DeepMind 的研究者训练了一个参数量为 2.7 亿的 Transformer 模型,这个模型无需依赖复杂的搜索算法或启发式算法就能达到「特级大师( Grandmaster-Level )」的国际象棋水平,优于 AlphaZero 的策略和价值网络(不含 MCTS)以及 GPT-3.5-turbo-instruct 模型。

这一结果非常有趣,也很容易激发想象力,因为到目前为止,能达到这个级别的计算机国际象棋系统 —— 无论是否基于机器学习 —— 都使用了搜索组件。而 DeepMind 模型不依赖搜索似乎就能达到如此强大的下棋水平

很多人将其解读为:这表明 Transformer 不是简单的「随机鹦鹉」,而是具有一定的推理和规划能力。就连该论文的作者也在「结论」部分写道:「我们的工作为快速增长的文献增添了新的内容,这些文献表明,复杂而精密的算法可以被蒸馏为前馈 transformer,这意味着一种范式的转变,即从将大型 transformer 视为单纯的统计模式识别器,转变为将其视为通用算法近似的强大技术。」
图片
不过,这种解读也引来了一些争议。比如,Meta FAIR 研究科学家主任田渊栋指出,论文采用的评估方法 ——「blitz」可能存在一些局限。「blitz」字面意思是闪电战,在国际象棋中指超快棋。在这种棋赛中,对局每方仅有几分钟的时间思考,玩家往往依赖直觉而非深入的搜索和解决问题的能力。此外,模型与机器人对弈时的分数比与人类对弈时的分数要低。田渊栋认为这可能是因为人类在有限的时间内可能没有机器人那么擅长发现战术上的失误。所以,这种比赛可能并不足以用来测试模型是否拥有推理能力。
图片
一向喜欢唱反调的纽约大学教授 Gary Marcus 这次也没有缺席,他也认为论文的结论被夸大了,模型的泛化能力存在严重问题。
图片
其实,在今年 2 月份论文刚出来的时候,就有一些研究者写过关于该论文的质疑文章,有兴趣的读者可以点开阅读。
图片
博客链接:https://arjunpanickssery.substack.com/p/skepticism-about-deepminds-grandmaster
图片
博客链接:https://gist.github.com/yoavg/8b98bbd70eb187cf1852b3485b8cda4f#user-content-fnref-3-b6ec0872d32c5df9324eccad8269953b

论文概览

人工智能最具标志性的成功之一是 IBM 的深蓝(Deep Blue)在 1997 年击败了国际象棋冠军 Garry Kasparov。人们普遍认为,这证明了机器能够在需要复杂理性推理和战略规划的智力领域中超越人类 —— 而这些智力领域一直被认为只有人类才能涉足。

深蓝是一个专家系统,它结合了广泛的象棋知识和启发式规则以及强大的树搜索算法(alpha-beta 剪枝)。几乎所有当代且更强大的象棋引擎都遵循类似的模式,目前世界上最强大的(公开可用的)引擎是 Stockfish 16。

值得注意的例外是 DeepMindAlphaZero,以及它的开源复制品 Leela Chess Zero(它目前在象棋电脑比赛中经常排名第二),它们使用搜索和自学的启发式规则,但不依赖人类的象棋知识。

最近,人工智能系统在扩展方面取得了突破性进展,这使其在认知领域取得了巨大进步,而这些领域对于像「深蓝」这样的早期系统来说仍然具有挑战性。推动这一进步的是通用技术,特别是在专家数据上进行(自)监督训练,并大规模应用基于注意力的架构。在此过程中,研究者们开发出了具有令人印象深刻的认知能力的 LLM,如 OpenAI 的 GPT 系列、LLaMA 模型系列或谷歌 DeepMind 的 Chinchilla 和 Gemini。

然而,目前还不清楚同样的技术是否适用于国际象棋这样的领域,因为在这一领域,成功的策略通常依赖于复杂的算法推理(搜索、动态规划)和复杂的启发式规则。因此,本文的主要问题是:是否有可能利用监督学习来获得一种国际象棋策略,这种策略能很好地泛化到新棋局,而不需要显式搜索?

为了研究这一问题,作者将大规模通用监督训练的成功秘诀应用于国际象棋(见图 1)。
图片
作者使用基于注意力的标准架构和标准监督训练协议来学习预测棋盘的动作 - 值(action-value,对应胜率)。因此,由此产生的国际象棋策略的强度完全取决于底层行动值预测器的强度。

为了获得大量「真实」动作 - 值的数据库,作者使用 Stockfish 16 作为预言机,对数百万个棋盘状态进行注释,这些棋盘状态来自 lichess.org 上随机抽取的人类对弈棋局。正如论文中展示的那样,这将产生一个强大的特级大师级国际象棋策略(在 Lichess 平台上的闪击战中,该模型对阵人类玩家的 Elo 评分为 2895 分)。该策略由一个当代 transformer 驱动,无需任何显式搜索即可预测动作 - 值。该策略优于 GPT-3.5- turbo-instruct(也优于 GPT-4)和 AlphaZero 的策略和价值网络,后者的 Elo 评分分别为 1755、1620 和 1853。

因此,这项工作表明,通过标准监督学习,有可能在足够大的规模上将 Stockfish 16 的良好近似值蒸馏到前馈神经网络中 —— 正如 1921 年至 1927 年国际象棋世界冠军 José Raúl Capablanca 所言:「我只看到前面的一步棋,但它总是正确的一步」。
图片
论文地址:https://arxiv.org/pdf/2402.04494

方法介绍

数据。为了构建数据集,作者从 2023 年 2 月开始在 Lichess (lichess.org) 下载了 1000 万场游戏。并从这些游戏中提取所有棋盘状态 s,并使用 Stockfish 16 估计每个状态的状态值图片,时间限制为每局 50 毫秒。

方法。对于预测器,作者使用仅有解码器的 transformer 作为主干来参数化离散概率分布,并对 transformer 的输出应用 log-softmax 层进行归一化。因此,模型输出对数概率。

在动作 - 值预测中,上下文大小为 79,而在状态 - 值预测和行为克隆中,上下文大小为 78。对于动作和状态 - 值预测,输出大小为 𝐾,对于行为克隆,输出大小为 1968(所有可能合法动作的数量)。之后作者使用学习到的位置编码,从而保持输入序列的长度是恒定的。最大的模型大约有 2.7 亿个参数

Token 化。棋盘状态𝑠被编码为 FEN 字符串,作者将其转换为固定长度为 77 个字符的字符串,其中每个字符的 ASCII 码即为一个 token。FEN 字符串描述了棋盘上所有棋子的位置、当前轮到哪方、双方玩家的易位、半步计时器和全步计数器。

作者采用 FEN 字符串中任何可变长度的字段,在必要时用填充的方法,将其转换为固定长度的子字符串。对于动作,作者以 UCI 表示法存储动作。为了对其进行 Token 化,作者确定了所有可能的合法动作总共有 1968 个,按字母数字顺序(区分大小写)排序,并取动作的索引作为 token,这意味着动作是由单一 token 描述的。 

预测器协议

预测器是离散分布的,根据预测目标,作者将任务分成三类(参见上图 1):动作 - 值预测 (AV, Action-value ) 、 状态 - 值预测 (SV, State-value ) 以及行为克隆 (BC, Behavioral cloning )。

基准

作者将本方法与 Stockfish 16、AlphaZero 的三种变体进行了比较,但并没有和 GPT-4 进行比较,因为他们发现 GPT-4 很难在不做出非法动作的情况下玩完整个游戏。

实验结果

表 1 主要评估了具有 9M、136M 和 270M 参数的三个 Transformer 模型。结果表明,这三个模型都表现出对新棋盘的非凡泛化能力,并且可以成功解决大部分谜题。

在所有指标中,拥有更大的模型可以持续提高得分,这证实了模型规模对于国际象棋表现至关重要。最大的模型在与人类玩家的比赛中取得了 2895 Elo,达到大师级别。
图片
图 2 中作者将 270M 参数模型与 Stockfish 16、GPT-3.5-turbo-instruct 和 AlphaZero 价值网络的性能进行了比较。实验中使用了 10k 个谜题的大型谜题集进行实验。

Stockfish 16 在所有难度类别中表现最佳,其次是本文的 270M 模型。

作者强调,解决谜题需要正确的移动顺序,并且由于本文的策略无法明确提前规划,因此解决谜题序列完全依赖于良好的值估计。
图片
图 3 展示了对数据集和模型大小进行扩展的分析。

对于较小的训练集大小(10k 个游戏),较大的架构(≥ 7M)随着训练的进行开始过度拟合。

当数据集大小增加到 100k 和 1M 场游戏时,这种影响会消失。

结果还表明,随着数据集大小的增加,模型的最终准确率会提高(在模型大小之间保持一致)。同样,作者观察到架构大小增加的总体趋势是无论数据集大小如何,整体性能都会提高。
图片
通过下表 2 可以得出以下几点:

动作 - 值预测器在动作排名、动作准确率和谜题准确率方面更胜一筹。

模型的性能随着深度的增加而增加,但似乎在 8 层左右达到饱和,这表明深度很重要,但不能超过某个点。
图片
产业DeepMind
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

田渊栋人物

田渊栋,Facebook人工智能研究院智能围棋、星际争霸项目负责人。

推荐文章
暂无评论
暂无评论~