HuggingFace 团队最新训练的小尺寸模型 Zephyr-7B,性能 超越参数十倍之大的 LLaMA2-70B-Chat。
在权威基准测试 MT-Bench 上,Zephyr-7B 以 7.09 分的成绩整体超越 LLaMA2-70B-Chat。此外,Zephyr-7B 还在 OpenLLM Leaderboard 的 4 个数据集上取得了 66.1 的平均分。
从 Twitter 中的雷达图可以看出,这个 7B 模型的信息抽取(Extraction)和代码(Coding)能力尤其突出,大幅超越 Mistra-7B-Instruct 和 LLaMA2-70B-Chat。
以一当十,Zephyr-7B 是怎么做到的?
Zephyr-7B 基于 面壁智能(ModelBest)联合清华 NLP 实验室最新开源的大规模反馈数据集 UltraFeedback 训练而成。
UltraFeedback是团队探索 大模型对齐(Alignment)技术 的又一座里程碑,发布不足十天,已经得到开源社区的积极认可。
GitHub地址:https://github.com/OpenBMB/UltraFeedback
HuggingFace链接: https://huggingface.co/datasets/openbmb/UltraFeedback
UltraFeedback 数据集强在哪里?
基于人类反馈的强化学习(RLHF),已被 OpenAI、Anthropic 和 Google DeepMind 等业界领先公司广泛研究并应用。
然而,由于 缺乏高质量、公开可用的偏好数据集,开源社区在 RLHF 的研究和实践上仍然处于落后状态。
为了解决这一问题,助力建设繁荣的大模型开源生态。面壁智能团队构建了UltraFeedback,一个 大规模、多样化、细粒度 的偏好数据集,包括 25万 条对话数据以及相应的偏好标注数据。
在非社区标注的偏好数据集中,这一数据规模排在首位。并且,其中每条偏好标注均包含四个方面的细粒度得分与详细的文字说明。
此外,UltraFeedback 从多个社区开源的指令数据集中收集了约 6 万条指令。基于这些指令,UltraFeedback 从 17 种不同架构、参数量、训练数据的模型中随机选取 4 种不同模型,为每条指令生成4种有区分度的回复,极大地提升了指令和模型的多样性。
目前,团队已经发布 UltraFeedback 的相应论文,想要详细了解 UltraFeedback 技术原理的朋友可前去查看。
如何应用 UltraFeedback?奖励模型和批评模型
基于 UltraFeedback,团队训练了两个模型来进一步辅助模型评测和模型反馈学习。
一个是 奖励模型(Reward Model)——UltraRM,旨在区分同一个问题的不同回答好坏(HuggingFace 地址:https://huggingface.co/openbmb/UltraRM-13b )。
就像老师为不同学生的答案给出评分,分数高低其实就是收到的奖励大小。高分答案可以指引大家后续的回答方向。同理,UltraRM 是大模型后续进行RLHF的基础,也是衡量反馈数据集质量的重要维度。
UltraRM 由 LLaMA2-13B 初始化,在 UltraFeedback 和三个开源数据集(Anthropic HH-RLHF, Stanford SHP和OpenAI Summarization)组成的混合数据集上进行微调。在四个公共偏好测试集上,UltraRM 显著超过其他开源奖励模型,达到了 SOTA 的性能。
另一个机制是 批评模型(Critique Model)——UltraCM,用于自动生成文本形式的反馈(HuggingFace 地址: https://huggingface.co/openbmb/UltraCM-13b)。
批评重在“评”,就像老师除了给分外,还会进一步作出点评,指出答案好在哪里,不好在哪里。根据更明确的一对一点评,才能针对性地提升回答。
能够给出文本形式评价的 UltraCM 对于可解释的模型评测以及模型反馈学习十分重要。
与 UltraRM 类似,UltraCM 由 LLaMA2-13B 初始化。在 9 个基准数据集上,UltraCM 优于所有开源 baseline,性能接近 ChatGPT。
对齐技术给大模型戴上“紧箍咒”
“对齐(Alignment)” 是指要求人工智能系统的目标、价值观、利益等与人类的相一致,使其符合设计者的预期,避免产生超出控制的有害后果。
如果人工智能是神通广大的孙悟空,那么对齐技术就是紧箍咒。唐僧只有掌握了紧箍咒,才能确保孙悟空不会胡作非为。
面壁智能(ModelBest)与清华大学 NLP 实验室持续探索深耕大模型对齐(Alignment)技术,除了 UltraFeedback 外,团队此前还开源发布了 UltraChat 和 UltraLM。
UltraChat,高质量的对话数据集,包含了 150 余万 条多轮指令数据。调用多个 ChatGPT API 相互对话,从而生成多轮对话数据。
UltraLM,基于 UltraChat 数据训练的大语言模型,具有丰富的世界知识和超强的指令理解和跟随能力,能对各类问题/指令给出具有丰富信息量的回复。
继 UltraLM-13B-v1.0 登顶斯坦福 AlpacaEval* 开源模型榜单 后,团队最新发布了与 UltraRM 联合的 UltraLM-13B-v2.0(best-of-16 采样),在 AlpacaEval 榜单取得了 92.30% 的高分,成为 70B 以下模型 最高分。
由此可见,运用面壁智能相关对齐技术能够“降本增效”地提升模型能力。
不管AI未来会有多么强大,只有被人类驯化才能服务人类。对齐技术是人工智能的好老师,让大模型的训练和生成得以控制。
*AlpacaEval 是斯坦福大学发布的用于自动评估大语言模型的排行榜,包括从测评数据集、模型回答生成,到自动评估的完整评测流程。榜单所采用的 GPT-4 评估与人类标注结果的皮尔逊相关系数达到 94%,评估方式可靠权威。