我们是否正在掉入中等智能陷阱?一个关于大语言模型 “逆转诅咒” 的分析与缓解方法。
data:image/s3,"s3://crabby-images/3e499/3e499e8b50dc882ec673d263cdbf711403219789" alt="图片"
该研究采用 Berglund et al. 提出的 “人名 - 描述问答” 数据集,该数据集使用 GPT-4 编造了若干人名和对应的描述,人名和描述都是独一无二的。数据示例如下图所示:
该数据集有四个测试子任务:
NameToDescription (N2D): 通过 prompt 模型训练集 “NameToDescription” 部分涉及到的人名,让模型回答相应的描述 DescriptionToName (D2N): 通过 prompt 模型训练集 “DescriptionToName” 部分涉及到的描述,让模型回答相应的人名 DescrptionToName-reverse (D2N-reverse): 通过 prompt 模型训练集 “DescriptionToName” 部分涉及到的人名,让模型回答相应的描述 NameToDescription-reverse (N2D-reverse): 通过 prompt 模型训练集 “NameToDescription” 部分涉及到的描述,让模型回答相应的人名
该研究在此数据集上对 Llama 和 GLM 按照各自的预训练目标(Llama 用 NTP 目标,GLM 用 ABI 目标),进行微调。微调后,通过测试模型回答逆转任务的准确率,可以定性地评估模型在真实场景下遭受 “逆转诅咒” 的严重性。由于所有人名和数据都是编造的,因此这些任务基本不会被模型已有的知识干扰。
data:image/s3,"s3://crabby-images/cd167/cd167cdbebfc0676edf4c3f91a2da6c28ad2b2e7" alt="图片"
data:image/s3,"s3://crabby-images/54348/5434852cacb6523a46df54cda28bba3ef9e7fd56" alt="图片"
data:image/s3,"s3://crabby-images/4219c/4219cfbe5685b6c40c5874785a95c24c63ebe10a" alt="图片"
data:image/s3,"s3://crabby-images/357f0/357f0accb7aea405a7d84e3d1cd573b6d652f681" alt="图片"
data:image/s3,"s3://crabby-images/6e13c/6e13c9b90be84051b1e6ad8f250fa47ab3815355" alt="图片"
data:image/s3,"s3://crabby-images/4cb8f/4cb8ff8a377d3b1fc843d8067d4bab341bab8bb6" alt="图片"
data:image/s3,"s3://crabby-images/2fe39/2fe39fcf6a64f98e56da632bd37e903cbd48513d" alt="图片"
data:image/s3,"s3://crabby-images/3950c/3950c7777dbe89cb61393d15f22224fa5796a7a9" alt="图片"