AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。
论文:https://arxiv.org/abs/2404.00276 代码:https://github.com/gingasan/idge Demo:https://www.bilibili.com/video/BV1dA4m1w7xr/?vd_source=e0570b35759018455d30551c1e16a676 论文标题:Instruction-Driven Game Engines on Large Language Models
现在玩一个名为石头剪刀布的游戏,两位玩家同时发出代表游戏元素的动作;石头、剪刀和布。游戏的结果由 3 个简单的规则决定:石头战胜剪刀;剪刀战胜布;布战胜石头。如果动作相同则进入下一轮游戏。
player 1:剪刀 | player 2:剪刀 (player 1 2 发出动作阶段互相不可见)
player 1:剪刀 | player 2:石头 (player 1 2 发出动作阶段互相不可见)
首先是稳定性(Stability)。相比于聊天,在游戏中,任何一个小问题就有可能导致整个游戏发生错乱,因此 IDGE 的预测追求 100% 的准确率。 其次是多样性(Diversity)。玩家群体十分庞大,涵盖不同年龄、性别、以及文化上的差异,它们对游戏的偏好截然不同,描述规则的语言也差异颇大。这意味着,IDGE 要理解高度多样的用户输入,同时保证游戏运行的稳定。
推理延迟:大语言模型的推理很缓慢,导致目前的 IDGE 不适合于实时类的游戏,例如 RTS。 上下文窗口:当游戏变得更加复杂,一个游戏状态会带来大量的字符数,以此来满足独立性假设,这将对大语言模型的长期理解能力和 KV 缓存带来挑战。 游戏数据的缺乏:目前大部分商业游戏的数据都是私有化的,为此,作者将研究重点放在了扑克牌上。