2023/10/16 11:16

面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2？

HuggingFace 团队最新训练的小尺寸模型 Zephyr-7B，性能超越参数十倍之大的 LLaMA2-70B-Chat。

在权威基准测试 MT-Bench 上，Zephyr-7B 以 7.09 分的成绩整体超越 LLaMA2-70B-Chat。此外，Zephyr-7B 还在 OpenLLM Leaderboard 的 4 个数据集上取得了 66.1 的平均分。

从 Twitter 中的雷达图可以看出，这个 7B 模型的信息抽取（Extraction）和代码（Coding）能力尤其突出，大幅超越 Mistra-7B-Instruct 和 LLaMA2-70B-Chat。

以一当十，Zephyr-7B 是怎么做到的？

Zephyr-7B 基于面壁智能（ModelBest）联合清华 NLP 实验室最新开源的大规模反馈数据集 UltraFeedback 训练而成。

UltraFeedback是团队探索大模型对齐（Alignment）技术的又一座里程碑，发布不足十天，已经得到开源社区的积极认可。

GitHub地址：https://github.com/OpenBMB/UltraFeedback

HuggingFace链接： https://huggingface.co/datasets/openbmb/UltraFeedback

UltraFeedback 数据集强在哪里？

基于人类反馈的强化学习（RLHF），已被 OpenAI、Anthropic 和 Google DeepMind 等业界领先公司广泛研究并应用。

然而，由于缺乏高质量、公开可用的偏好数据集，开源社区在 RLHF 的研究和实践上仍然处于落后状态。

为了解决这一问题，助力建设繁荣的大模型开源生态。面壁智能团队构建了UltraFeedback，一个大规模、多样化、细粒度的偏好数据集，包括 25万条对话数据以及相应的偏好标注数据。

在非社区标注的偏好数据集中，这一数据规模排在首位。并且，其中每条偏好标注均包含四个方面的细粒度得分与详细的文字说明。

此外，UltraFeedback 从多个社区开源的指令数据集中收集了约 6 万条指令。基于这些指令，UltraFeedback 从 17 种不同架构、参数量、训练数据的模型中随机选取 4 种不同模型，为每条指令生成4种有区分度的回复，极大地提升了指令和模型的多样性。

目前，团队已经发布 UltraFeedback 的相应论文，想要详细了解 UltraFeedback 技术原理的朋友可前去查看。

如何应用 UltraFeedback？奖励模型和批评模型

基于 UltraFeedback，团队训练了两个模型来进一步辅助模型评测和模型反馈学习。

一个是奖励模型（Reward Model）——UltraRM，旨在区分同一个问题的不同回答好坏（HuggingFace 地址：https://huggingface.co/openbmb/UltraRM-13b ）。

就像老师为不同学生的答案给出评分，分数高低其实就是收到的奖励大小。高分答案可以指引大家后续的回答方向。同理，UltraRM 是大模型后续进行RLHF的基础，也是衡量反馈数据集质量的重要维度。

UltraRM 由 LLaMA2-13B 初始化，在 UltraFeedback 和三个开源数据集（Anthropic HH-RLHF, Stanford SHP和OpenAI Summarization）组成的混合数据集上进行微调。在四个公共偏好测试集上，UltraRM 显著超过其他开源奖励模型，达到了 SOTA 的性能。

另一个机制是批评模型（Critique Model）——UltraCM，用于自动生成文本形式的反馈（HuggingFace 地址： https://huggingface.co/openbmb/UltraCM-13b）。

批评重在“评”，就像老师除了给分外，还会进一步作出点评，指出答案好在哪里，不好在哪里。根据更明确的一对一点评，才能针对性地提升回答。

能够给出文本形式评价的 UltraCM 对于可解释的模型评测以及模型反馈学习十分重要。

与 UltraRM 类似，UltraCM 由 LLaMA2-13B 初始化。在 9 个基准数据集上，UltraCM 优于所有开源 baseline，性能接近 ChatGPT。

对齐技术给大模型戴上“紧箍咒”

“对齐（Alignment）” 是指要求人工智能系统的目标、价值观、利益等与人类的相一致，使其符合设计者的预期，避免产生超出控制的有害后果。

如果人工智能是神通广大的孙悟空，那么对齐技术就是紧箍咒。唐僧只有掌握了紧箍咒，才能确保孙悟空不会胡作非为。

面壁智能（ModelBest）与清华大学 NLP 实验室持续探索深耕大模型对齐（Alignment）技术，除了 UltraFeedback 外，团队此前还开源发布了 UltraChat 和 UltraLM。

UltraChat，高质量的对话数据集，包含了 150 余万条多轮指令数据。调用多个 ChatGPT API 相互对话，从而生成多轮对话数据。

UltraLM，基于 UltraChat 数据训练的大语言模型，具有丰富的世界知识和超强的指令理解和跟随能力，能对各类问题/指令给出具有丰富信息量的回复。

继 UltraLM-13B-v1.0 登顶斯坦福 AlpacaEval* 开源模型榜单后，团队最新发布了与 UltraRM 联合的 UltraLM-13B-v2.0（best-of-16 采样），在 AlpacaEval 榜单取得了 92.30% 的高分，成为 70B 以下模型最高分。

由此可见，运用面壁智能相关对齐技术能够“降本增效”地提升模型能力。

不管AI未来会有多么强大，只有被人类驯化才能服务人类。对齐技术是人工智能的好老师，让大模型的训练和生成得以控制。

*AlpacaEval 是斯坦福大学发布的用于自动评估大语言模型的排行榜，包括从测评数据集、模型回答生成，到自动评估的完整评测流程。榜单所采用的 GPT-4 评估与人类标注结果的皮尔逊相关系数达到 94%，评估方式可靠权威。

产业大语言模型对齐