Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

开源模型进展盘点:最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好?

深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察,也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中,他盘点分析了 4 月份发布的四个主要新模型:Mixtral、Meta AI 的 Llama 3、微软的 Phi-3 和苹果的 OpenELM。他还通过一篇论文探讨了 DPO 和 PPO 的优劣之处。之后,他分享了 4 月份值得关注的一些研究成果。

图片

Mixtral、Llama 3 和 Phi-3:有什么新东西?

首先,从最重要的话题开始:4 月发布的主要新模型。这一节将简要介绍 Mixtral、Llama 3 和 Phi-3。下一节将会更详细地介绍苹果的 OpenELM。

Mixtral 8x22B:模型越大越好!

Mixtral 8x22B 是 Mistral AI 推出的最新款混合专家(MoE)模型,其发布时采用了宽松的 Apache 2.0 开源许可证。

这个模型类似于 2024 年发布的 Mixtral 8x7B,其背后的关键思路是将 Transformer 架构中的每个前馈模块替换成 8 个专家层。对于 MoE,这里就不多用篇幅解释了,不过作者在今年的一月研究盘点中介绍 Mixtral 8x7B 时详细介绍过 MoE,感兴趣的读者可访问《模型融合、混合专家、更小的 LLM,几篇论文看懂 2024 年 LLM 发展方向》。

Mixtral 一篇博客文章给出了一张很有趣的图,其中在两个轴上比较了 Mixtral 8x22B 与其它几个 LLM:在常用的 MMLU 基准上的建模性能以及活跃参数量(与计算资源需求有关)。

图片

                              Mixtral 8x22B 与其它一些 LLM 的对比(基于博客 https://mistral.ai/news/mixtral-8x22b )

Llama 3:数据越多越好!

Meta AI 在 2023 年 2 月发布的首个 Llama 模型是开放式 LLM 的一步重大突破,也是开源 LLM 发展历程的重要节点。因此很自然地,去年发布的 Llama 2 也振奋了每个人的心。现在 Meta AI 已经开始发布的 Llama 3 模型也同样振奋人心。

虽然最大的模型(400B 版本)依然还在训练之中,但他们已经发布了大家熟悉的 8B 和 70B 版本。而且他们的表现很好!下面我们把 Llama 3 加入到上图中。

图片

                              Llama 3、Mixtral 和其它 LLM 的对比

整体上看,Llama 3 架构几乎与 Llama 2 完全一样。它们之间的主要区别是 Llama 3 的词汇库更大以及 Llama 3 的更小型模型使用了分组查询注意力(grouped-query attention)。至于什么是分组查询注意力,可参阅本文作者写的另一篇文章:https://magazine.sebastianraschka.com/p/ahead-of-ai-11-new-foundation-models

下面是用 LitGPT 实现 Llama 2 和 Llama 3 的配置文件,这能清楚方便地展示它们的主要差异。

图片

                               通过 LitGPT 比较 Llama 2 和 Llama 3 的配置,https://github.com/Lightning-AI/litgpt

训练数据的规模

Llama 3 的性能之所以比 Llama 2 好很多,一大主要因素是其数据集大得多。Llama 3 的训练使用了 15 万亿 token,而 Llama 2 只有 2 万亿。

这个发现很有趣,因为根据 Llama 3 博客所言:依照 Chinchilla 扩展律,对于 8B 参数的模型,训练数据的最优数量要少得多,大约为 2000 亿 token。此外,Llama 3 的作者观察到,8B 和 70B 参数的模型在 15 万亿 token 规模上也展现出了对数线性级的提升。这说明,即使训练 token 数量超过 15 万亿,模型也能获得进一步提升。

指令微调和对齐

对于指令微调和对齐,研究者的选择通常有两个:通过近端策略优化(PPO)或无奖励模型的直接偏好优化(DPO)实现使用人类反馈的强化学习(RLHF)。有趣的是,Llama 3 的开发者对这两者并无偏好,他们两个一起用了!(后面一节会更详细地介绍 PPO 和 DPO)。

Llama 3 博客表示 Llama 3 的研究论文会在下一个月发布,到时我们还能看到更多细节。

Phi-3:数据质量越高越好!

就在 Llama 3 盛大发布一周之后,微软发布了其新的 Phi-3 LLM。根据其技术报告中的基准测试结果,最小的 Phi-3 模型也比 Llama 3 8B 模型更强,即便其大小要小一半。

图片

                               Phi-3、Llama 3、Mixtral 与其它 LLM 的比较

值得注意的是,Phi-3(基于 Llama 架构)训练使用的 token 数量比 Llama 3 少 5 倍,仅有 3.3 万亿,而 Llama 3 则是 15 万亿。Phi-3 甚至使用了和 Llama 2 一样的 token 化器,词汇库大小为 32,064,这比 Llama 3 的词汇库小得多。

另外,Phi-3-mini 的参数量仅有 3.8B,不到 Llama 3 8B 参数量的一半。

那么,Phi-3 有何秘诀?根据其技术报告,其更重视数据质量,而不是数量:「经过严格过滤的网络数据和合成数据」。

其论文并未给出太多数据整编方面的细节,但其很大程度上承袭了之前的 Phi 模型的做法。本文作者之前写过一篇介绍 Phi 模型的文章,参阅:https://magazine.sebastianraschka.com/p/ahead-of-ai-12-llm-businesses

在本文写作时,人们依然不能肯定 Phi-3 是否正如其开发者许诺的那样好。举个例子,很多人都表示,在非基准测试的任务上,Phi-3 的表现比 Llama 3 差得多。

结论

上面三个公开发布的 LLM 让过去的 4 月成为了一个非常特殊的月份。而作者最喜欢的模型还是尚未谈到的 OpenELM,这是下一节的内容。

在实践中,我们应该如何选用这些模型呢?作者认为这三种模型都有各自的吸引点。Mixtral 的活跃参数量低于 Llama 3 70B,但依然能维持相当好的性能水平。Phi-3 3.8B 可能比较适合用于移动设备;其作者表示,Phi-3 3.8B 的一个量化版本可以运行在 iPhone 14 上。而 Llama 3 8B 可能最能吸引各种微调用户,因为使用 LoRA 在单台 GPU 上就能轻松对其进行微调。

OpenELM:一个使用开源训练和推理框架的高效语言模型系列

OpenELM 是苹果公司发布的最新 LLM 模型套件和论文,其目标是提供可在移动设备上部署的小型 LLM。

类似于 OLMo,这篇 LLM 论文的亮眼之处是其详细分享了架构、训练方法和训练数据。

图片

OpenELM 与其它使用同样的数据集、代码和权重的开源 LLM 的比较(这样的模型不多,但都是开放的)。图表来自 OpenELM 论文:https://arxiv.org/abs/2404.14619

先看一些最相关的信息:

  • OpenELM 有 4 种相对较小且方便使用的大小:270M、450M、1.1B 和 3B。

  • 每种大小都有一个指令版本可用,其使用了拒绝采样和直接偏好优化进行训练。

  • OpenELM 的表现稍优于 OLMo,即便其训练使用的 token 数量少 2 倍。

  • 其主要的架构调整是逐层扩展策略。

架构细节

除了逐层扩展策略(细节后面谈),OpenELM 的整体架构设置和超参数配置与 OLMo 和 Llama 等其它 LLM 较为相似,见下图。

图片

                             OpenELM、最小的 OLMo 模型和最小的 Llama 2 模型的架构和超参数比较。

训练数据集

他们从多个公共数据集(RefinedWeb、RedPajama、The PILE、Dolma)采样了一个相对较小的子集,其中包含 1.8T token。这个子集比 OLMo 训练使用的数据集 Dolma 小 2 倍。但他们是依据什么标准执行这个采样的呢?

其中一位作者表示:「至于数据集,我们在数据集采样方面没有考虑任何理由,就是希望使用 2T token 规模的公共数据集(遵循 LLama 2 的做法)。」

图片

    训练 OpenELM 使用的 token 数量与数据集中的 token 原数量(请注意 token 的确切数量取决于所用的 token 化器)。图表来自 OpenELM 论文。

逐层扩展

其使用的逐层扩展策略(基于论文《DeLighT: Deep and Light-weight Transformer》)非常有趣。从本质上讲,这个策略就是从早期到后期的 transformer 模块逐渐对层进行扩宽。特别需要说明,这个过程会保持头的大小恒定,逐渐增加注意力模块中头的数量。前馈模块的维度也会扩展,如下图所示。

图片

                             LLM 架构,来自作者的著作《Build a Large Language Model from Scratch》

作者表示:「我希望有一个在同样的数据集上使用和不用逐层扩展策略训练 LLM 的消融研究。」但这类实验的成本很高,没人做也就可以理解了。

但是,最早提出逐层扩展策略的论文《DeLighT: Deep and Light-weight Transformer》中有消融研究,这是基于原始的编码器 - 解码器架构在更小的数据集上完成的,如下所示。

图片

             标准 transformer 模块和采用了逐层(逐模块)扩展策略的 transformer 模块的比较,来自 DeLighT 论文:https://arxiv.org/abs/2008.00623

LoRA 与 DoRA

OpenELM 团队还给出了一个意外之喜:比较了 LoRA 与 DoRA 在参数高效型微调方面的表现!结果表明,这两种方法之间并不存在明显的差异。

图片

                               LoRA 和 DoRA 这两种参数高效型微调方法之间的建模性能比较

结论

尽管 OpenELM 论文并未解答任何研究问题,但它写得很棒,详细透明地给出了 OpenELM 的实现细节。后面我们可能会看到更多 LLM 使用逐层扩展策略。另外,苹果不止发布了这一篇论文,也在 GitHub 上公布了 OpenELM 代码:https://github.com/apple/corenet/tree/main/mlx_examples/open_elm

总之,这是很棒的成果,非常感谢其研究团队(以及苹果)与我们分享!

更多详情也可参阅机器之心报道《苹果 OpenAI 合作,力争今年生成式 AI 登陆 iPhone》。

在 LLM 对齐方面,DPO 是否优于 PPO?

论文《Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study》解答了一个非常关键的问题。(https://arxiv.org/abs/2404.10719 )

在介绍结果之前,我们先概述一下这篇论文的内容:PPO(近端策略优化)和 DPO(直接偏好优化)都是通过 RLHF(使用人类反馈的强化学习)实现的用于对齐 LLM 的常用方法。

RLHF 是 LLM 开发过程的一大关键组件,其作用是将 LLM 与人类偏好对齐,这可提升 LLM 所生成响应的安全性和实用性等。

图片

                                典型的 LLM 训练周期

更详细的解释可参看作者上个月发布的文章:https://magazine.sebastianraschka.com/p/tips-for-llm-pretraining-and-evaluating-rms

RLHF-PPO 和 DPO 是什么?

最初的 LLM 对齐方法 RLHF-PPO 一直都是 OpenAI 的 InstructGPT 和 ChatGPT 中部署的 LLM 的主干技术。但是,最近几个月,随着 DPO 微调型 LLM 的涌现,情况发生了变化 —— 其对公共排行榜产生了重大影响。DPO 广受欢迎的原因也许是其无奖励的特性,这使得其更易使用:不同于 PPO,DPO 并不需要训练一个单独的奖励模型,而是使用一个类似分类的目标来直接更新 LLM。

图片

                               奖励模型与 DPO 对比

现如今,公共排行榜上大多数 LLM 都是使用 DPO 训练的,而不是 PPO。但不幸的是,在这里介绍的这篇论文之前,还没人在同样的数据集上使用同样的模型比较 PPO 和 DPO 的优劣。

PPO 通常优于 DPO

论文《Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study》中给出了大量实验的结果,但其中的主要结论是:PPO 通常优于 DPO,且 DPO 更容易受到分布外数据的影响。

这里,分布外数据的意思是 LLM 之前训练所用的指令数据(使用监督式微调)不同于 DPO 所用的偏好数据。举个例子,一个 LLM 首先在常用的 Alpaca 数据集上训练完成,之后再在另一个带有偏好标签的数据集上通过 DPO 进行微调。(为了提升在分布外数据上的 DPO 表现,一种方法是在 DPO 微调之前,添加一轮在偏好数据集上的监督式指令微调。)

下图总结了主要发现。

图片

                                论文的主要发现

除了上面给出的主要结果,该论文还包含一些额外的实验和消融研究,感兴趣的读者可参看原论文。

最佳实践

此外,这篇论文还包含了一些使用 DPO 和 PPO 时的最佳实践推荐。

举个例子,如果你使用 DPO,一定要确保首先在偏好数据上执行监督式微调。而在现有偏好数据上,迭代式 DPO 更优于 DPO,这需要使用一个已有的奖励模型来标注额外的数据。

如果你使用 PPO,则成功的关键因素包括较大的批量大小、advantage normalization 以及通过指数移动平均进行参数更新。

图片

                              偏好数据示例,来自 Orca 数据集,https://huggingface.co/datasets/Intel/orca_dpo_pairs

总结

基于这篇论文的结果可知,如果使用得当,那么 PPO 似乎优于 DPO。但是,考虑到 DPO 的使用和实现都更简单,DPO 可能仍将是大家的首选方法。

作者推荐了一种实践做法:如果你有基本真值奖励标签(这样就不必预训练自己的奖励模型)或可以下载到领域内奖励模型,就使用 PPO。其它情况就使用 DPO,因为它更简单。

另外,根据 LLama 3 博客文章,我们也可以不纠结选哪一个:我们可以两个一起用!举个例子,Llama 3 就遵循以下流程:预训练→监督式微调→拒绝采样→PPO→DPO

四月发布的其它有趣论文

最后,作者 Sebastian Raschka 分享了自己在四月份看到的有趣论文。他表示即使与 LLM 成果大量涌现的前几个月相比,四月份的看点依然很多。

  • 论文:KAN: Kolmogorov–Arnold Networks

  • 链接:https://arxiv.org/abs/2404.19756

Kolmogorov-Arnold Networks(KAN)是使用在边上的可学习的基于 spline 的函数替换了线性权重参数,并且缺乏固定的激活参数。KAN 似乎是多层感知器(MLP)的一种颇具吸引力的新替代品,其在准确度、神经扩展性能和可解释性方面都有优势。

  • 论文:When to Retrieve:Teaching LLMs to Utilize Information Retrieval Effectively

  • 链接:https://arxiv.org/abs/2404.19705

这篇论文为 LLM 提出了一种定制版的训练方法,可教会它们在不知道答案时通过一个特殊 token <RET> 使用自己的参数记忆或外部信息检索系统。

  • 论文:A Primer on the Inner Workings of Transformer-based Language Models

  • 链接:https://arxiv.org/abs/2405.00208

这篇入门解读论文简要概述了用于解释基于 Transformer 的仅解码器语言模型所使用的技术。

  • 论文:RAG and RAU:A Survey on Retrieval-Augmented Language Model in Natural Language Processing

  • 链接:https://arxiv.org/abs/2404.19543

这篇综述全面总结了检索增强型 LLM—— 详细给出了它们的组件、结构、应用和评估方法。

  • 论文:Better & Faster Large Language Models via Multi-token Prediction

  • 链接:https://arxiv.org/abs/2404.19737

这篇论文认为,训练 LLM 同时预测多个未来 token 而不只是接下来一个 token 可以提升采样效率,同时还能提升 LLM 在生成任务上的性能表现。

  • 论文:LoRA Land:310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

  • 链接:https://arxiv.org/abs/2405.00732

LoRA 是使用最为广泛的参数高效型微调技术,而这项研究发现 4 bit LoRA 微调的模型既显著优于其基础模型,也优于 GPT-4。

  • 论文:Make Your LLM Fully Utilize the Context, An, Ma, Lin et al.(25 Apr),

  • 链接:https://arxiv.org/abs/2404.16811

这项研究提出了 FILM-7B。这个模型使用了一种信息密集型方法训练得到,可以解决「中间丢失(lost-in-the-middle)」难题,即 LLM 无法检索上下文窗口中间位置的信息的问题。

  • 论文:Layer Skip:Enabling Early Exit Inference and Self-Speculative Decoding

  • 链接:https://arxiv.org/abs/2404.16710

LayerSkip 可以加快 LLM 的推理速度,为此其在训练阶段使用了层丢弃和早退,并在推理阶段使用了自推测解码。

  • 论文:Retrieval Head Mechanistically Explains Long-Context Factuality

  • 链接:https://arxiv.org/abs/2404.15574

这篇论文探索了具有长上下文能力的基于 Transformer 的模型在其注意力机制中如何使用特定的「检索头」来有效地检索信息。从中揭示出这些头是普适的、稀疏的、内在的、动态激活的,并且对于需要参考先验信息或推理的任务至关重要。

  • 论文:Graph Machine Learning in the Era of Large Language Models (LLMs)

  • 链接:https://arxiv.org/abs/2404.14928

这篇综述论文总结了图神经网络和 LLM 正被逐渐整合起来提升图和推理能力。

  • 论文:NExT:Teaching Large Language Models to Reason about Code Execution

  • 链接:https://arxiv.org/abs/2404.14662

NExT 是一种通过教 LLM 学习分析程序执行来提升 LLM 理解和修复代码的能力的方法。

  • 论文:Multi-Head Mixture-of-Experts

  • 链接:https://arxiv.org/abs/2404.15045

这篇论文提出的多头混合专家(MH-MoE)模型可解决稀疏混合专家的专家激活率低和难以应对多语义概念的问题,其做法是引入多头机制,将 token 拆分成被多个专家并行处理的子 token。参看机器之心的报道《微软让 MoE 长出多个头,大幅提升专家激活率》。

  • 论文:A Survey on Self-Evolution of Large Language Models

  • 链接:https://arxiv.org/abs/2404.14662

这篇论文全面总结了 LLM 的自进化方法,并为 LLM 自进化提出了一个概念框架,另外还给出了提升此类模型的难题和未来方向。

  • 论文:OpenELM:An Efficient Language Model Family with Open-source Training and Inference Framework

  • 链接:https://arxiv.org/abs/2404.14619

苹果提出的 OpenELM 是一个承袭自 OLMo 的 LLM 套件,包括完整的训练和评估框架、日志、检查点、配置和其它可用于复现研究的工件。

  • 论文:Phi-3 Technical Report:A Highly Capable Language Model Locally on Your Phone

  • 链接:https://arxiv.org/abs/2404.14219

Phi-3-mini 是基于 3.3 万亿 token 训练的 3.8B 参数 LLM,其基准测试性能可以比肩 Mixtral 8x7B 和 GPT-3.5 等更大型模型。

  • 论文:How Good Are Low-bit Quantized LLaMA3 Models?An Empirical Study

  • 链接:https://arxiv.org/abs/2404.14047

这项实证研究发现,Meta 的 LLaMA 3 模型在超低位宽下会出现严重的性能下降。

  • 论文:The Instruction Hierarchy:Training LLMs to Prioritize Privileged Instructions

  • 链接:https://arxiv.org/abs/2404.13208

这项研究提出了一种用于 LLM 的指令层级结构,使其可优先处理受信任的 prompt,在无损其标准能力的前提下提升其应对攻击的稳健性。

  • 论文:OpenBezoar:Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

  • 链接:https://arxiv.org/abs/2404.12195

这项研究使用来自 Falcon-40B 的合成数据以及 RLHF 和 DPO 等技术对 OpenLLaMA 3Bv2 模型进行了微调,使其凭借系统性过滤和微调数据以更小的模型规模实现了顶尖的 LLM 任务性能。

  • 论文:Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

  • 链接:https://arxiv.org/abs/2404.12253

尽管 LLM 在多种任务上表现出色,但它们难以执行复杂的推理和规划。这里提出的 AlphaLLM 整合了蒙特卡洛树搜索,可创建一个自我提升循环,从而无需额外的数据标注也能提升 LLM 执行推理任务的性能。

  • 论文:When LLMs are Unfit Use FastFit:Fast and Effective Text Classification with Many Classes

  • 链接:https://arxiv.org/abs/2404.12365

FastFit 是一个新的 Python 软件包,可为语言任务快速准确地处理具有很多相似类别的少样本分类,其做法是整合批量对比学习和 token 层面的相似度分数,可带来 3-20 倍的训练速度提升,并且性能也优于 SetFit 和 HF Transformers 等方法。

  • 论文:A Survey on Retrieval-Augmented Text Generation for Large Language Models

  • 链接:https://arxiv.org/abs/2404.10981

这篇综述论文讨论了检索增强式生成(RAG)是如何将检索技术与深度学习结合到了一起,这可让 LLM 动态集成最新信息。这篇文章还对 RAG 过程进行了分类,回顾了近期进展并提出了未来研究方向。

  • 论文:How Faithful Are RAG Models?Quantifying the Tug-of-War Between RAG and LLMs' Internal Prior

  • 链接:https://arxiv.org/abs/2404.10198

提供正确的检索信息通常能纠正 GPT-4 等大型语言模型的错误,但不正确的信息往往会重复,除非被强大的内部知识反击。

  • 论文:Scaling (Down) CLIP:A Comprehensive Analysis of Data, Architecture, and Training Strategies

  • 链接:https://arxiv.org/abs/2404.08197

这篇论文探索了降低对比式语言 - 图像预训练(CLIP)的规模以适配计算预算有限的情况。研究表明,高质量的小规模数据集往往优于大规模低质量数据集,并且对于这些数据集,较小的 ViT 模型是最优的。

  • 论文:Is DPO Superior to PPO for LLM Alignment?A Comprehensive Study

  • 链接:https://arxiv.org/abs/2404.10719

这项研究探索了直接偏好优化(DPO)和近端策略优化(PPO)在根据人类反馈的强化学习(RLHF)中的效果。结果发现,如果使用得当,PPO 可以在所有案例中超越所有其它替代方法。

  • 论文:Learn Your Reference Model for Real Good Alignment

  • 链接:https://arxiv.org/abs/2404.09656

这篇论文展现了新的对齐方法:信任区域直接偏好优化(TR-DPO)。其会在训练阶段更新推理策略;其优于现有技术,能提升在多个参数上的模型质量 —— 在特定数据集上能带来高达 19% 的性能提升。

  • 论文:Chinchilla Scaling:A Replication Attempt

  • 链接:https://arxiv.org/abs/2404.10102

该论文的作者试图复现 Hoffmann et al. 提出的一种用于估计计算最优型扩展律的方法,其中发现了与使用其它方法得到的原始估计不一致且难以置信的结果。

  • 论文:State Space Model for New-Generation Network Alternative to Transformers:A Survey

  • 链接:https://arxiv.org/abs/2404.09516

这篇论文给出了对状态空间模型(SSM)的全面概述和实验分析。SSM 是 Transformer 架构的一种高效型替代技术。这篇论文详细说明了 SSM 的原理,其在多个领域的应用,并通过统计数据比较展现了其优势和潜在的未来研究方向。

  • 论文:LLM In-Context Recall is Prompt Dependent

  • 链接:https://arxiv.org/abs/2404.08865

这项研究评估了多种 LLM 在上下文中进行回忆的能力。其做法是在文本块中嵌入一个仿真陈述(factoid),然后评估模型在不同条件下检索这个信息的性能,结果表明该性能会受到 prompt 内容和训练数据中的潜在偏见的双重影响。

  • 论文:Dataset Reset Policy Optimization for RLHF

  • 链接:https://arxiv.org/abs/2404.08495

这项研究提出了数据集重置策略优化(DR-PO)。这是一种新的基于人类偏好的反馈的强化学习(RLHF)算法,其能将离线的偏好数据集直接整合进在线的策略训练,从而提升训练效果。

  • 论文:Pre-training Small Base LMs with Fewer Tokens

  • 链接:https://arxiv.org/abs/2404.08634

这项研究提出了继承微调(Inheritune),可用于开发较小型的基础语言模型。其做法是从大型模型继承一小部分 transformer 模块,然后在该大型模型的一小部分数据上进行训练。结果表明这些小型模型的性能可比肩大型模型,尽管它们使用的训练数据和资源都少得多。

  • 论文:Rho-1:Not All Tokens Are What You Need

  • 链接:https://arxiv.org/abs/2404.07965

Rho-1 是一种新的语言模型,其训练过程并未采用传统的下一 token 预测方法,而是在展现出更高超额损失的 token 上进行选择性的训练。

  • 论文:Best Practices and Lessons Learned on Synthetic Data for Language Models

  • 链接:https://arxiv.org/abs/2404.07503

这篇论文总结了 LLM 语境中的合成数据研究。

  • 论文:JetMoE:Reaching Llama2 Performance with 0.1M Dollars, Shen, Guo, Cai, and Qin (11 Apr),

  • 链接:https://arxiv.org/abs/2404.07413

JetMoE-8B 是一个 8B 参数的稀疏门控式混合专家模型,其训练使用了 1.25 万亿 token,成本不到 10 万美元,但其凭每输入 token 2B 参数和「仅仅」30000 GPU 小时数就在性能表现上超过了 Llama2-7B 等成本更高的模型。

  • 论文:LLoCO:Learning Long Contexts Offline

  • 链接:https://arxiv.org/abs/2404.07979

LLoCO 这种方法是将上下文压缩、检索和参数高效型微调与 LoRA 结合到一起,从而可以有效地扩展 LLaMA2-7B 模型的上下文窗口,使其可以处理多达 128k token。

  • 论文:Leave No Context Behind:Efficient Infinite Context Transformers with Infini-attention

  • 链接:https://arxiv.org/abs/2404.07143

这项研究提出了一种扩展基于 transformer 的 LLM 的方法,使其可以高效处理无限长的输入。其思路是在单个 transformer 模块中组合使用多种注意力策略来处理具有广泛上下文需求的任务。

  • 论文:Adapting LLaMA Decoder to Vision Transformer

  • 链接:https://arxiv.org/abs/2404.06773

这篇论文研究了基于 Llama 等仅解码器 transformer LLM 来执行计算机视觉任务,其做法是使用后序列类别 token 和一种软性掩码策略等技术来修改标准视觉 Transformer(ViT)。

  • 论文:LLM2Vec:Large Language Models Are Secretly Powerful Text Encoders

  • 链接:https://arxiv.org/abs/2404.05961

这项研究提出了一种简单的无监督方法,可将解码器式的 LLM(如 GPT 和 Llama)转换成强大的文本编码器,其做法有三:1. 禁用因果注意掩码、2. 掩码式下一 token 预测、3. 无监督对比学习。

  • 论文:Elephants Never Forget:Memorization and Learning of Tabular Data in Large Language Models

  • 链接:https://arxiv.org/abs/2404.06209

这篇论文聚焦于 LLM 中的数据污染和记忆形成等关键问题,结果发现 LLM 往往会记住常见的表格式数据,并且在训练期间见过的数据集上表现更好,而这会导致过拟合

  • 论文:MiniCPM:Unveiling the Potential of Small Language Models with Scalable Training Strategies

  • 链接:https://arxiv.org/abs/2404.06395

这项研究提出了一个新的资源高效型「小」语言模型系列,参数量范围在 1.2B 到 2.4B 之间;其中使用的技术包括预热 - 稳定 - 衰减学习率调度器,这对连续预训练和领域适应很有用。

  • 论文:CodecLM:Aligning Language Models with Tailored Synthetic Data

  • 链接:https://arxiv.org/abs/2404.05875

CodecLM 这个框架是使用编码 - 解码原理和 LLM 作为编解码器自适应地生成用于对齐 LLM 的高质量合成数据,其中包含多种指令分布,能提升 LLM 遵循复杂多样化指令的能力。

  • 论文:Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence

  • 链接:https://arxiv.org/abs/2404.05892

Eagle 和 Finch 是基于 RWKV 架构的新序列模型,其中引入了多头矩阵状态和动态递归等功能。

  • 论文:AutoCodeRover:Autonomous Program Improvement

  • 链接:https://arxiv.org/abs/2404.05427

AutoCodeRover 是一种自动化方法,其使用了 LLM 和高级代码搜索通过修改软件程序来解决 GitHub 问题。

  • 论文:Sigma:Siamese Mamba Network for Multi-Modal Semantic Segmentation

  • 链接:https://arxiv.org/abs/2404.04256

Sigma 是一种使用 Siamese Mamba(结构状态空间模型)网络进行多模态语义分割的方法,它将热度和深度等不同模态与 RGB 相结合,可成为 CNN 和视觉 Transformer 的替代方法。

  • 论文:Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

  • 链接:https://arxiv.org/abs/2404.03862

Quote-Tuning 可提升 LLM 的可信度和准确度(相比于标准模型可提升 55% 到 130%),其做法是让 LLM 学会更多地逐词引用可靠来源。

  • 论文:ReFT:Representation Finetuning for Language Models

  • 链接:https://arxiv.org/abs/2404.03592

这篇论文提出了表征微调(ReFT)方法,该方法类似于参数高效型微调(PEFT),能通过仅修改模型的隐藏表征(而不是整套参数)来高效地适应大型模型。

  • 论文:CantTalkAboutThis:Aligning Language Models to Stay on Topic in Dialogues

  • 链接:https://arxiv.org/abs/2404.03820

这篇论文提出了 CantTalkAboutThis 数据集,其设计目的是帮助 LLM 在面向任务的对话中不偏离话题(其中包括多种领域的合成对话,并具有分散话题的内容,可以训练模型不偏离话题)。

  • 论文:Training LLMs over Neurally Compressed Text

  • 链接:https://arxiv.org/abs/2404.03626

这篇论文提出了一种在经过神经压缩的文本(使用一个小型语言模型压缩后的文本)上训练 LLM 的方法,其中使用了一种名为 Equal-Info Windows 的技术 —— 作用是将文本分割成同等位长的块。

  • 论文:Direct Nash Optimization:Teaching Language Models to Self-Improve with General Preferences

  • 链接:https://arxiv.org/abs/2404.02151

这篇论文提出了一种用于 LLM 后训练的方法:直接纳什优化(DNO)。该方法是使用来自预言机的偏好反馈来迭代式地提升模型性能,可成为其它 RLHF 方法的替代技术。

  • 论文:Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models

  • 链接:https://arxiv.org/abs/2404.02747

这篇论文探究了交叉注意力在文本条件式扩散模型的推理阶段的工作方式 —— 研究发现其会在一定位置稳定下来,另外还发现:如果在这个收敛点之后绕过文本输入,可在无损输出质量的情况下简化这个过程。

  • 论文:BAdam:A Memory Efficient Full Parameter Training Method for Large Language Models

  • 链接:https://arxiv.org/abs/2404.02827

BAdam 是一个内存高效型优化器,可以提升微调 LLM 的效率,而且其使用便捷,仅有一个额外的超参数

  • 论文:On the Scalability of Diffusion-based Text-to-Image Generation

  • 链接:https://arxiv.org/abs/2404.02883

这篇论文通过实证研究了基于扩散的文生图模型的扩展性质。其中分析了扩展去噪主干模型和训练集的效果,揭示出:交叉注意力和 transformer 模块的效率会极大影响性能。另外,论文还给出了以更低成本提升文本 - 图像对齐和学习效率的策略。

  • 论文:Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks

  • 链接:https://arxiv.org/abs/2404.02151

这项研究揭示出:即使围绕安全而构建的最新 LLM 也会被自适应技术轻松越狱。使用对抗性提示工程、利用 API 漏洞和 token 搜索空间限制等方法,对各种模型都能达到接近 100% 的越狱成功率。

  • 论文:Emergent Abilities in Reduced-Scale Generative Language Models

  • 链接:https://arxiv.org/abs/2404.02204

这项研究发现,如果能将预训练数据集的规模缩小和简化,非常「小」的 LLM(参数量从 1M 到 165M)也能展现出涌现性质。

  • 论文:Long-context LLMs Struggle with Long In-context Learning

  • 链接:https://arxiv.org/abs/2404.02060

LIConBench 是一个关注长上下文学习和极端标签分类的新基准。实验结果表明,尽管 LLM 擅长处理多达 20K token,但当序列更长时,它们的性能就下降了,只有 GPT-4 例外,这说明在处理上下文信息丰富的文本方面,各个模型之间存在差距。

  • 论文:Mixture-of-Depths:Dynamically Allocating Compute in Transformer-Based Language Models

  • 链接:https://arxiv.org/abs/2404.02258

这篇论文提出的混合深度方法可让基于 transformer 的语言模型为输入序列的不同部分动态地分配计算资源(FLOPs),从而可通过在每层选取特定的 token 进行处理而实现对性能和效率的优化。参看机器之心报道《DeepMind 升级 Transformer,前向通过 FLOPs 最多可降一半》。

  • 论文:Diffusion-RWKV:Scaling RWKV-Like Architectures for Diffusion Models

  • 链接:https://arxiv.org/abs/2404.04478

这篇论文提出的 Diffusion-RWKV 是用于 NLP 的 RWKV 架构的一种变体,其中纳入了用于图像生成的扩散模型。

  • 论文:The Fine Line:Navigating Large Language Model Pretraining with Down-streaming Capability Analysis

  • 链接:https://arxiv.org/abs/2404.01204

这项研究发现使用早期阶段就能预测最终的 LLM,这有助于在预训练期间分析 LLM 并改进预训练设置。

  • 论文:Bigger is not Always Better:Scaling Properties of Latent Diffusion Models

  • 链接:https://arxiv.org/abs/2404.01367

这项研究探讨了隐扩散模型的大小对不同步骤和任务的采样效率有何影响。结果揭示出:在给定推理预算时,较小的模型往往能得到更高质量的结果。参看机器之心报道《大模型一定就比小模型好?谷歌的这项研究说不一定》。

  • 论文:Do Language Models Plan Ahead for Future Tokens?

  • 链接:https://arxiv.org/abs/2404.00859

这项研究通过实验发现:Transformer 能在推理阶段通过「预缓存」和「面包屑」机制预测未来信息。参看机器之心报道《Transformer 本可以深谋远虑,但就是不做》。

参考链接:https://magazine.sebastianraschka.com/p/how-good-are-the-latest-open-llms

理论Sebastian RaschkaLightning AI
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

文本分割技术

文本分割是将书面文本分割成有意义的单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时使用的心理过程,也适用于计算机中实现的人工过程,计算机是自然语言处理的主题。这个问题并不简单,因为虽然有些书面语言有明确的词界标记,例如书面英语的单词空间和阿拉伯语独特的最初、中间和最后的字母形状,但这种信号有时是含糊不清的,在所有书面语言中都不存在。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

拒绝采样技术

在数学中,拒绝抽样是用来从分布产生观测值的基本技术。它也被称为接受拒绝方法或“接受 - 拒绝算法”,是一种蒙特卡罗方法

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~