2024/07/24 14:16

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

刚刚，大家期待已久的 Llama 3.1 官方正式发布了！

Meta 官方发出了「开源引领新时代」的声音。

在官方博客中，Meta 表示：「直到今天，开源大语言模型在功能和性能方面大多落后于封闭模型。现在，我们正在迎来一个开源引领的新时代。我们公开发布 Meta Llama 3.1 405B，我们认为这是世界上最大、功能最强大的开源基础模型。迄今为止，所有 Llama 版本的总下载量已超过 3 亿次，我们才刚刚开始。」

Meta 创始人、CEO 扎克伯格也亲自写了篇长文《Open Source AI Is the Path Forward》，阐述为什么开源对所有开发者、对 Meta、对世界都是好事。

此次发布的要点包括：

最新的系列模型将上下文长度扩展到了 128K、增加了对八种语言的支持，并包括顶级开源模型 Llama 3.1 405B；
Llama 3.1 405B 独树一帜，Meta 官方称其可与最好的闭源模型相媲美；
此次发布还提供了更多与模型配合使用的组件（包括参考系统）来将 Llama 打造为一个系统；
用户通过 WhatsApp 和 meta.ai 就可以体验 Llama 3.1 405B 了。

地址：https://llama.meta.com/

各位网友可以下载尝鲜了。

Llama 3.1 介绍

Llama 3.1 405B 是首个公开可用的模型，在常识、可操纵性、数学、工具使用和多语言翻译等方面可与顶级 AI 模型相媲美。

Meta 表示最新一代的 Llama 将激发新的应用程序和建模范式，包括利用合成数据生成来提升和训练更小的模型，以及模型蒸馏 —— 这是一种在开源领域从未达到的能力。

与此同时，Meta 还推出了 8B 和 70B 模型的升级版本，支持多种语言，上下文长度达到 128K，推理能力也更强。最新模型支持高级用例，例如长篇文本摘要、多语言对话智能体和编码助手。

举例来说，Llama 3.1 可以将故事翻译成西班牙语：

当用户提问「有 3 件衬衫、5 条短裤和 1 条连衣裙，假如要旅行 10 天。准备的衣服够不够？」模型能够快速的进行推理。

长上下文：对于上传的文档，Llama 3.1 能够分析和总结最多 8k token 的大型文档。

编码助手，对于用户要求，可以快速编写代码：

此外，Llama 3.1 405B 的开发者还发推文「剧透」，表示开发 GPT-4o 一样集成语音和视觉能力的模型还在开发中。

Meta 还对开源协议进行了更改，允许开发人员使用 Llama 模型（包括 405B）的输出来改进其他模型。此外，为了兑现开源承诺，从今天开始，Meta 将这些模型提供给社区，用户可以在 llama.meta.com 和 Hugging Face 上下载。

下载地址：

https://huggingface.co/meta-llama
https://llama.meta.com/

模型评估

Meta 在超过 150 个基准数据集上进行了评估，此外，他们还进行了广泛的人类评估。

实验结果表明，旗舰模型 Llama 3.1 405B 在一系列任务中与领先的基础模型包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 具有竞争力。此外，8B 和 70B 小型模型与具有相似数量参数的闭源和开源模型具有竞争力。

模型架构

作为 Meta 迄今为止最大的模型，使用超过 15 万亿个 token 训练 Llama 3.1 405B 是一项重大挑战。为了实现这种规模的训练，Meta 优化了整个训练堆栈，并在超过 16,000 个 H100 GPU 上训练，使该模型成为第一个在此规模上训练的 Llama 模型。

为了解决这个问题，Meta 在设计上做出了以下一些选择，重点保持模型开发过程的可扩展性和简单性。

选择了仅进行少量调整的标准解码器 Transformer 模型架构，而不是混合专家模型，以最大限度地提高训练稳定性。
采用迭代后训练程序，每轮都使用监督微调和直接偏好优化。这使 Meta 能够为每轮创建最高质量的合成数据，并提高每项功能的性能。

与之前版本的 Llama 相比，Meta 提高了用于预训练和后训练的数据数量和质量，如为预训练数据开发更仔细的预处理和管理管道，为后训练数据开发更严格的质量保证与过滤方法。

正如语言模型 scaling laws 所预期的那样，Meta 新旗舰模型优于使用相同程序训练的较小模型。Meta 还使用 405B 参数模型来提高较小模型的后训练质量。

为了支持 405B 模型的大规模推理产出，Meta 将模型从 16 比特 (BF16) 量化为 8 比特 (FP8) ，有效降低了所需的计算要求，并允许模型在单个服务器节点运行。

指令和聊天微调

Llama 3.1 405B 努力提高模型响应用户指令的实用性、质量和详细指令遵循能力，同时确保高水平的安全性。

在后训练阶段，研究团队通过在预训练模型的基础上进行几轮对齐来构建最终的聊天模型。每轮都涉及监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）。

研究团队使用合成数据生成来产生绝大多数 SFT 示例，并多次迭代以在所有功能上生成越来越高质量的合成数据。此外，研究团队还采用了多种数据处理技术，以过滤这些合成数据，达到最高质量，并可以跨功能扩展微调数据量。

Llama 系统

Llama 模型一直是作为 AI 系统的一部分而存在的，可以协调多个组件，包括调用外部工具。Meta 旨在超越基础模型，让开发人员能够灵活地设计和创建符合其愿景的定制产品。

为了在模型层之外负责任地开发人工智能，Meta 发布了一个完整的参考系统，其中包括多个示例应用程序以及新组件，例如 Llama Guard 3（一种多语言安全模型）和 Prompt Guard（一个 prompt 注入过滤器）。这些示例应用程序是开源的，可以由开源社区构建。

为了与行业、初创公司和开源社区进行更广泛的合作，帮助更好地定义组件的接口，Meta 在 GitHub 上发布了针对「Llama Stack」的评论请求。Llama Stack 是一组标准化接口，用于构建规范的工具链组件（微调、合成数据生成）和智能体应用程序。这有助于更轻松地实现互操作性。

与封闭模型不同，Llama 模型权重可供下载。开发人员可以根据自己的需求和应用程序完全定制模型，在新数据集上进行训练，并进行额外的微调。

使用 Llama 3.1 405B 进行开发

对于普通开发者来说，部署 405B 这样大规模的模型无疑是一项挑战，它需要大量的计算资源和专业技能。在与开发者社区的交流中，Meta 意识到，生成式 AI 的开发不仅仅是给模型输入 prompt。他们期望所有开发者都能在以下领域充分开发 Llama 3.1 405B 的潜力：

实时和批量推理
监督式微调
测试和评估模型在特定应用中的性能
持续预训练
检索增强生成（RAG）
函数调用
合成数据生成

发布即日起，Llama 3.1 405B 模型的所有高级功能都将开放，开发者们可以即刻上手。开发者们还可以探索更高阶的工作流，例如基于模型蒸馏的合成数据生成。这次升级，Meta 还无缝集成了合作伙伴 AWS、NVIDIA 和 Databricks 提供的解决方案，以实现更高效的检索增强生成（RAG）。此外，Groq 已经为在云端部署模型进行了低延迟推理的优化，也对本地系统进行了类似的性能提升。

Meta 这次还为 Llama 3.1 405B 内置了「工具大礼包」，内含 vLLM、TensorRT 和 PyTorch 等关键项目，从模型开发到部署「开箱即用」，一步到位。

^{参考链接：https://ai.meta.com/blog/meta-llama-3-1/}

产业Llama 3.1MeTA