论文链接:https://arxiv.org/abs/2309.01219 Github 链接:https://github.com/HillZhang1999/llm-hallucination-survey
和用户输入冲突的幻觉 (Input-Conflicting Hallucination):大模型生成的回复违背了用户输入中的任务指示或者任务输入。 和已生成的上下文冲突的幻觉 (Context-Conflicting Hallucination):大模型生成的回复出现了自我矛盾。 和事实知识冲突的幻觉 (Fact-Confilicting Hallucination):大模型生成的回复与公认的事实知识出现了冲突。
大模型使用海量训练数据:与传统任务不同,大模型需要在海量数据上进行大规模预训练。这些海量数据往往采集于互联网,可能包含大量伪造的、有偏见、过时的内容,从而导致幻觉。由于数据规模过大,上述问题内容也难以分析和筛除。 大模型的通用性:传统模型往往只面向单一的任务,而大模型则被应用于多任务、多语言、多领域的通用场景。大模型的通用性给幻觉的全面评估、消除带来了全新挑战。 大模型幻觉不易被察觉:由于大模型的强悍能力,大模型生成的幻觉看上去非常合理,有的时候甚至人类都很难发现。 其他区别:大模型的一些新特性,例如额外引入的基于人类反馈的强化学习 (RLHF) 过程、模糊的知识边界、以及潜在的黑盒属性,也给幻觉研究带来了新的挑战。
评估形式 (Evaluation):现有评估基准往往有两类方式评估大模型的幻觉,即生成式 (generation) 和判别式 (discrimination)。生成式的基准直接评估大模型生成回复中出现幻觉的倾向,而判别式的基准则评估大模型判断一段文本是否存在幻觉的能力。 应用任务 (Task Format):现有评估基准在不同的下游任务中评估大模型的幻觉现象,例如问答、指令遵循、文本续写等。 评测指标 (Metrics):现有评估基准各自设计了特殊的指标,用于判断大模型出现幻觉的程度,包括:1)人工评估;2) 基于模型的自动评估;3)基于规则的自动评估。
大模型缺乏相关知识或者记忆错误知识:在大模型回答用户问题或者解决更复杂的下游任务时,如果缺少了所需要的知识或者从训练数据中记忆了错误的知识,则有可能出现幻觉。 大模型高估了自己的能力:一些工作发现,大模型往往无法准确地估计自己的能力边界。因此,大模型在回复超出自己能力的问题时,往往会高估自己,从而自信地编造幻觉回复。 对齐过程中引入幻觉:大模型在预训练阶段外,还需要进行对齐,包括指令微调和 RLHF。这些步骤可能误导大模型出现幻觉。例如不恰当的指令微调可能让大模型学会捏造自己不会的答案,RLHF 也可能让大模型学会为了讨好人类而编造内容。 生成过程中引入幻觉:一些工作认为,不恰当的生成策略也可能导致大模型出现幻觉。例如,基于采样的解码生成方式中引入的随机性被证明可能导致幻觉,而大模型常用的自回归生成方式也可能导致幻觉的累积传播现象。