大模型的效果好不好,有时候对齐调优很关键。但近来很多研究开始探索无微调的方法,艾伦人工智能研究所和华盛顿大学的研究者用「免调优」对齐新方法超越了使用监督调优(SFT)和人类反馈强化学习(RLHF)的 LLM 性能。
论文地址:https://arxiv.org/pdf/2312.01552.pdf 项目地址:https://allenai.github.io/re-align/
对齐只影响很小一部分 token,基础 LLM 和对齐 LLM 在大多数位置上的解码行为相同,它们共享相同的 top-ranked token; 对齐主要涉及 stylistic token,例如嗯、好吧、总之等口头语,以及过渡词、安全免责声明等,这些仅占总 token 位置的很小一部分; 对于靠前的 token( earlier tokens)来说,对齐更为重要。然而对于大多数位置来说,对齐模型排名靠前的 token 位于基础模型排名 top 5 的 token 之内; 基础 LLM 已经获得了足够的知识来遵循指令,当给定适当的上下文作为前缀时,它们的行为与对齐的 LLM 非常相似。