Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

最强模型Llama 3.1 405B正式发布,扎克伯格:开源引领新时代

刚刚,大家期待已久的 Llama 3.1 官方正式发布了!

Meta 官方发出了「开源引领新时代」的声音。
图片
在官方博客中,Meta 表示:「直到今天,开源大语言模型在功能和性能方面大多落后于封闭模型。现在,我们正在迎来一个开源引领的新时代。我们公开发布 Meta Llama 3.1 405B,我们认为这是世界上最大、功能最强大的开源基础模型。迄今为止,所有 Llama 版本的总下载量已超过 3 亿次,我们才刚刚开始。」

Meta 创始人、CEO 扎克伯格也亲自写了篇长文《Open Source AI Is the Path Forward》,阐述为什么开源对所有开发者、对 Meta、对世界都是好事。
图片
此次发布的要点包括:

  • 最新的系列模型将上下文长度扩展到了 128K、增加了对八种语言的支持,并包括顶级开源模型 Llama 3.1 405B;
  • Llama 3.1 405B 独树一帜,Meta 官方称其可与最好的闭源模型相媲美;
  • 此次发布还提供了更多与模型配合使用的组件(包括参考系统)来将 Llama 打造为一个系统;
  • 用户通过 WhatsApp 和 meta.ai 就可以体验 Llama 3.1 405B 了。
图片
地址:https://llama.meta.com/

各位网友可以下载尝鲜了。

Llama 3.1 介绍

Llama 3.1 405B 是首个公开可用的模型,在常识、可操纵性、数学、工具使用和多语言翻译等方面可与顶级 AI 模型相媲美。

Meta 表示最新一代的 Llama 将激发新的应用程序和建模范式,包括利用合成数据生成来提升和训练更小的模型,以及模型蒸馏 —— 这是一种在开源领域从未达到的能力。

与此同时,Meta 还推出了 8B 和 70B 模型的升级版本,支持多种语言,上下文长度达到 128K,推理能力也更强。最新模型支持高级用例,例如长篇文本摘要、多语言对话智能体和编码助手。

举例来说,Llama 3.1 可以将故事翻译成西班牙语:

图片

当用户提问「有 3 件衬衫、5 条短裤和 1 条连衣裙,假如要旅行 10 天。准备的衣服够不够?」模型能够快速的进行推理。

图片

长上下文:对于上传的文档,Llama 3.1 能够分析和总结最多 8k token 的大型文档。

图片

编码助手,对于用户要求,可以快速编写代码:

图片

此外,Llama 3.1 405B 的开发者还发推文「剧透」,表示开发 GPT-4o 一样集成语音和视觉能力的模型还在开发中。
图片
Meta 还对开源协议进行了更改,允许开发人员使用 Llama 模型(包括 405B)的输出来改进其他模型。此外,为了兑现开源承诺,从今天开始,Meta 将这些模型提供给社区,用户可以在 llama.meta.com 和 Hugging Face 上下载。

下载地址:

  • https://huggingface.co/meta-llama
  • https://llama.meta.com/

模型评估

Meta 在超过 150 个基准数据集上进行了评估,此外,他们还进行了广泛的人类评估。

实验结果表明,旗舰模型 Llama 3.1 405B 在一系列任务中与领先的基础模型包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 具有竞争力。此外,8B 和 70B 小型模型与具有相似数量参数的闭源和开源模型具有竞争力。
图片
图片
图片
模型架构

作为 Meta 迄今为止最大的模型,使用超过 15 万亿个 token 训练 Llama 3.1 405B 是一项重大挑战。为了实现这种规模的训练,Meta 优化了整个训练堆栈,并在超过 16,000 个 H100 GPU 上训练,使该模型成为第一个在此规模上训练的 Llama 模型。
图片
为了解决这个问题,Meta 在设计上做出了以下一些选择,重点保持模型开发过程的可扩展性和简单性。

  • 选择了仅进行少量调整的标准解码器 Transformer 模型架构,而不是混合专家模型,以最大限度地提高训练稳定性。
  • 采用迭代后训练程序,每轮都使用监督微调和直接偏好优化。这使 Meta 能够为每轮创建最高质量的合成数据,并提高每项功能的性能。

与之前版本的 Llama 相比,Meta 提高了用于预训练和后训练的数据数量和质量,如为预训练数据开发更仔细的预处理和管理管道,为后训练数据开发更严格的质量保证与过滤方法。

正如语言模型 scaling laws 所预期的那样,Meta 新旗舰模型优于使用相同程序训练的较小模型。Meta 还使用 405B 参数模型来提高较小模型的后训练质量。

为了支持 405B 模型的大规模推理产出,Meta 将模型从 16 比特 (BF16) 量化为 8 比特 (FP8) ,有效降低了所需的计算要求,并允许模型在单个服务器节点运行。

指令和聊天微调

Llama 3.1 405B 努力提高模型响应用户指令的实用性、质量和详细指令遵循能力,同时确保高水平的安全性。

在后训练阶段,研究团队通过在预训练模型的基础上进行几轮对齐来构建最终的聊天模型。每轮都涉及监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。

研究团队使用合成数据生成来产生绝大多数 SFT 示例,并多次迭代以在所有功能上生成越来越高质量的合成数据。此外,研究团队还采用了多种数据处理技术,以过滤这些合成数据,达到最高质量,并可以跨功能扩展微调数据量。

Llama 系统

Llama 模型一直是作为 AI 系统的一部分而存在的,可以协调多个组件,包括调用外部工具。Meta 旨在超越基础模型,让开发人员能够灵活地设计和创建符合其愿景的定制产品。

为了在模型层之外负责任地开发人工智能,Meta 发布了一个完整的参考系统,其中包括多个示例应用程序以及新组件,例如 Llama Guard 3(一种多语言安全模型)和 Prompt Guard(一个 prompt 注入过滤器)。这些示例应用程序是开源的,可以由开源社区构建。

为了与行业、初创公司和开源社区进行更广泛的合作,帮助更好地定义组件的接口,Meta 在 GitHub 上发布了针对「Llama Stack」的评论请求。Llama Stack 是一组标准化接口,用于构建规范的工具链组件(微调、合成数据生成)和智能体应用程序。这有助于更轻松地实现互操作性。

与封闭模型不同,Llama 模型权重可供下载。开发人员可以根据自己的需求和应用程序完全定制模型,在新数据集上进行训练,并进行额外的微调。

使用 Llama 3.1 405B 进行开发

对于普通开发者来说,部署 405B 这样大规模的模型无疑是一项挑战,它需要大量的计算资源和专业技能。在与开发者社区的交流中,Meta 意识到,生成式 AI 的开发不仅仅是给模型输入 prompt。他们期望所有开发者都能在以下领域充分开发 Llama 3.1 405B 的潜力:

  • 实时和批量推理
  • 监督式微调
  • 测试和评估模型在特定应用中的性能
  • 持续预训练
  • 检索增强生成(RAG)
  • 函数调用
  • 合成数据生成

发布即日起,Llama 3.1 405B 模型的所有高级功能都将开放,开发者们可以即刻上手。开发者们还可以探索更高阶的工作流,例如基于模型蒸馏的合成数据生成。这次升级,Meta 还无缝集成了合作伙伴 AWS、NVIDIA 和 Databricks 提供的解决方案,以实现更高效的检索增强生成(RAG)。此外,Groq 已经为在云端部署模型进行了低延迟推理的优化,也对本地系统进行了类似的性能提升。 

Meta 这次还为 Llama 3.1 405B 内置了「工具大礼包」,内含 vLLM、TensorRT 和 PyTorch 等关键项目,从模型开发到部署「开箱即用」,一步到位。

参考链接:https://ai.meta.com/blog/meta-llama-3-1/
产业Llama 3.1MeTA
2
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

拒绝采样技术

在数学中,拒绝抽样是用来从分布产生观测值的基本技术。它也被称为接受拒绝方法或“接受 - 拒绝算法”,是一种蒙特卡罗方法

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

Groq机构

Groq 成立于 2016 年底,2017 年 4 月初次进入公众视野:宣布获得 1030 万美元融资。作为芯片领域的创业公司,Groq 一经出现就获得了极大的关注。公司创始成员为谷歌TPU设计成员之一。在接受CNBC的采访时,有关人士曾透露,该公司拥有TPU原始团队的大部分成员。在沉寂了几个月后,Groq 还吸引到了赛灵思全球销售执行副总裁 Krishna Rangasayee 的加盟,担任 COO。

groq.com/
相关技术
强生机构

强生公司成立于1886年,是全球最具综合性、业务分布范围广的医疗健康企业之一,业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此,130多年来,公司始终致力于推进健康事业,让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/
量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~