Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

智能体的ChatGPT时刻!DeepMind通用AI向人类玩家进化,开始理解游戏

在 AI 智能体这个领域,谷歌 DeepMind 又有了一项里程碑式研究。

视频游戏是 AI 系统的重要试验场。与现实世界一样,游戏也是丰富的学习环境,具有反应灵敏的实时设置和不断变化的目标。

从早期与雅达利游戏的合作,到人类大师级水平的《星际争霸 II》系统 AlphaStar,谷歌 DeepMind人工智能和游戏领域陆续推出过不少影响力研究。

刚刚,谷歌宣布了又一项里程碑式研究:SIMA(Scalable Instructable Multiworld Agent),一种适用于 3D 虚拟环境的通用 AI 智能体。

加州大学欧文分校助理教授 Roy Fox 表示,SIMA 让我们离自主智能体的「ChatGPT 时刻」又近了一步。

谷歌 DeepMind 研究工程师 Tim Harley 表示:「想象有一天,我们可以让像 SIMA 这样的智能体与你和你的朋友一起玩游戏,而不是让你与超人智能体对抗。」

但目前的 AI 系统仍然没有接近人类水平。例如,在《无人深空》游戏中,AI 智能体只能完成人类能完成的 60% 的任务。当研究人员取消人类发出 SIMA 指令的能力时,他们发现该智能体的表现比以前差了很多。 

AI 已经不甘心只作 NPC 了

谷歌与八家游戏工作室合作,在九款不同的视频游戏中对 SIMA 进行了训练和测试,包括《无人天空》、《拆迁(Teardown)》、《英灵神殿》和《模拟山羊 3》。

图片

SIMA 产品组合中的每款游戏都是全新的互动世界,包括一系列需要学习的技能,从简单的导航和菜单使用,到开采资源、驾驶飞船或制作头盔。

图片

同时,谷歌还使用了四个研究环境 — 包括使用 Unity 构建的一个名为「建筑实验室」的新环境。在这个实验室中,智能体需要用积木搭建雕塑,以测试对物体的操作能力以及对物理世界的直观理解。

然后,谷歌在游戏组合中记录成对的人类玩家,其中一名玩家观察并指导另一名玩家,以捕获语言指令。随后让玩家自由玩游戏,重新观察他们的行为,并记录下可能导致其游戏行为的指令。

所有这些都被提供给 SIMA ,以学习预测屏幕上接下来会发生什么。通过在不同的游戏世界学习,SIMA 捕捉到了语言与游戏行为之间的联系。 

「这项研究标志着首次有 AI 智能体证明自己能够理解各种游戏世界,并能像人类一样按照自然语言指令在游戏世界中执行任务。」谷歌表示。

SIMA 并不只是一个由 AI 驱动的 NPC ,而是游戏中影响结果的另一个「玩家」。

谷歌还指出,SIMA 的研究并不是为了获得高分。对于 AI 系统来说,学会玩一款视频游戏固然是技术层面的重大突破,但学会在各种游戏环境中遵从指令,可以让 AI 智能体在任何环境中发挥更大的作用。

在技术报告中,谷歌也展示了如何通过语言界面将高级 AI 模型的能力转化为现实世界中有用的行动。

图片

技术报告:

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

SIMA:通用 AI 智能体来了

SIMA 的组件包括预训练好的视觉模型,以及一个包含内存并输出键盘和鼠标操作的主模型,如下图所示。

具体来讲,SIMA 包含了一个专为精确图像语言映射而设计的模型和一个预测屏幕上接下来会发生什么的视频模型。谷歌根据 SIMA 产品组合中特定于 3D 设置的训练数据对这两个模型进行了微调。

图片

下图为 SIMA 智能体架构细节。

图片

作为一种 AI 智能体,谷歌的 SIMA 可以感知和理解各种环境,然后采取行动来实现指定的目标。

重要的是,SIMA 既不需要访问游戏的源代码,也不需要定制的 API。它只需要两个输入:屏幕上的图像以及用户提供的简单自然语言指令。SIMA 使用键盘和鼠标输出来控制游戏中的核心角色来执行这些指令。人类可以使用这个简单的界面,这意味着 SIMA 可以与任何虚拟环境进行交互。

下图为 SIMA 数据中的指令。

图片

当前版本的 SIMA 通过 600 项基础技能进行评估,涵盖导航(例如「左转」)、对象交互(「爬梯子」)和菜单使用(「打开地图」)。

图片

谷歌训练 SIMA 执行简单任务,大约 10 秒内就能完成。

图片

SIMA 智能体的轨迹如下图所示。

图片

谷歌希望未来的智能体能够处理需要高级战略规划和多个子任务才能完成的任务,例如「寻找资源和建立营地」。这是人工智能的一个重要目标,虽然大型语言模型已经演化出了能够捕获世界知识并生成规划的强大系统,但它们目前缺乏代表人类采取行动的能力。

跨游戏的强泛化能力

谷歌证明,受过多种游戏训练的智能体比仅学习如何玩一种游戏的智能体表现更好。 

在谷歌的评估中,SIMA 智能体在一组九个 3D 游戏上进行了训练,其表现显著优于仅在每个单独的游戏上进行训练的所有专业智能体。

更重要的是,平均而言,接受过除一款游戏之外的所有游戏训练的智能体在这个未见过游戏上的表现几乎与专门训练过的智能体一样好。因此,这种在全新环境中发挥作用的能力凸显了 SIMA 超越其训练的泛化能力。 

谷歌表示,这是一个很有潜力的初步结果,不过 SIMA 需要进行更多的研究才能在见过和未见过游戏中达到人类水平。

此外,SIMA 的性能依赖于语言。在控制测试中,智能体没有接受任何语言训练或指令,它的行为方式虽适当但漫无目的。例如,智能体可能会收集资源(这是一种常见行为),而不是按照指令去走。

谷歌评估了 SIMA 按照指令完成近 1500 个具体游戏内(in-game)任务的能力,其中部分使用了人类裁判。作为基线比较,谷歌使用环境专用 SIMA 智能体的性能(经过训练和评估以遵循单个环境中的指令)作为评估指标。

如下图所示,谷歌与三种类型的通用 SIMA 智能体进行了比较,每种智能体都经过多个环境的训练。

图片

未来,谷歌期待在更多训练环境中进一步构建 SIMA,并纳入更强大的模型,从而提高 SIMA 对高级语言指令的理解能力以实现更复杂的目标。当然,随着 SIMA「暴露」在更多的训练世界中,谷歌希望它变得更加通用。

参考链接:

https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

https://www.technologyreview.com/2024/03/13/1089764/an-ai-that-can-play-goat-simulator-is-a-step-towards-more-useful-ai/

https://www.fastcompany.com/91058360/deepmind-new-ai-agent-video-games

产业SIMA谷歌 DeepMind
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

AlphaStar技术

AlphaStar是2019年1月DeepMind推出的打星际争霸2的AI系统。在1月的首次亮相中,DeepMind播放的比赛视频显示AlphaStar击败了两名人类职业选手TOL与MaNa,引起了业内极大的关注。DeepMind 官方博客介绍,AlphaStar 的行为是由一种深度神经网络生成的,该网络从原数据界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令序列。具体来说,该神经网络使用了一个 transformer 作为躯干,结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

雅达利游戏技术

雅达利(英语:Atari,NASDAQ:ATAR)是美国诺兰·布什内尔在1972年成立的电脑公司,街机、家用电子游戏机和家用电脑的早期拓荒者。不少诸如《乓》、《爆破彗星》等的经典早期电脑游戏的发行,使雅达利在电子游戏历史上举足轻重。经典游戏主机为1977年发行的雅达利2600。

推荐文章
暂无评论
暂无评论~