2024/07/26 11:33

算法、系统和应用，三个视角全面读懂混合专家（MoE）

LLM 很强，而为了实现 LLM 的可持续扩展，有必要找到并实现能提升其效率的方法，混合专家（MoE）就是这类方法的一大重要成员。

最近，各家科技公司提出的新一代大模型不约而同地正在使用混合专家（Mixture of Experts：MoE）方法。

混合专家这一概念最早诞生于 1991 年的论文《Adaptive mixtures of local experts》，三十多年来已经得到了广泛的探索和发展。近年来，随着稀疏门控 MoE 的出现和发展，尤其是与基于 Transformer 的大型语言模型相结合，这种已有三十多年历史的技术焕发出了新的生机。

MoE 框架基于一个简单却又强大思想：模型的不同部分（称为专家）专注于不同的任务或数据的不同方面。

使用这一范式时，对于一个输入，仅有与之相关的专家（Expert）才会参与处理，这样一来便能控制计算成本，同时仍能受益于大量专业知识。因此，MoE 可在不大幅提升计算需求的前提下提升大语言模型的能力。

如图 1 所示，MoE 相关研究增长强劲，尤其是在 2024 年 Mixtral-8x7B 以及 Grok-1、DBRX、Arctic、DeepSeek-V2 等各种产业级 LLM 出现之后。

这张图来自香港科技大学（广州）的一个研究团队近日发布的一篇 MoE 综述报告，其中清晰且全面地总结了 MoE 相关研究，并提出了一种全新的分类法，将这些研究归类到了算法、系统和应用三大类。

论文标题：A Survey on Mixture of Experts
论文地址：https://arxiv.org/pdf/2407.06204

机器之心整理了这篇综述报告的内容主干，以帮助读者了解当前 MoE 的发展概况，更多详情请阅读原论文。此外，我们也在文末整理了一些与 MoE 相关的报道。

混合专家的背景知识

在基于 Transformer 的大型语言模型（LLM）中，每个混合专家（MoE）层的组成形式通常是 𝑁 个「专家网络」{𝑓_1, ... , 𝑓_𝑁} 搭配一个「门控网络」G。

这个门控网络的形式通常是一个使用 softmax 激活函数的线性网络，其作用是将输入引导至合适的专家网络。MoE 层的放置位置是在 Transformer 模块内，作用是选取前向网络（FFN），通常位于自注意力（SA）子层之后。这种放置方式很关键，因为随着模型增大，FFN 的计算需求也会增加。举个例子，在参数量达到 5400 亿的 PaLM 模型中，90% 的参数都位于其 FFN 层中。

用数学形式描述的话：每个专家网络 𝑓_𝑖 （通常是一个线性 - ReLU - 线性网络）都由 W_𝑖 进行参数化，其接收同一输入 x 并生成输出 𝑓_𝑖 (x; W_𝑖)。同时，参数为 Θ 的门控网络 G（通常由一个线性 - ReLU - 线性 - softmax 网络构成）得到输出 G (x; Θ)。再根据门控函数的设计方式，可以将 MoE 层大致分为以下两类。

密集 MoE

密集混合专家层是在每次迭代过程中激活所有专家网络 {𝑓_1, ... , 𝑓_𝑁}。早期的 MoE 研究普遍采用了这一策略。近段时间也有一些研究采用了密集 MoE，比如 EvoMoE、MoLE 、LoRAMoE 和 DS-MoE。图 2a 给出了密集 MoE 层的结构。因此，密集 MoE 层的输出可以表示成：

其中，𝑔(x; Θ) 是 softmax 运算之前的门控值。

稀疏 MoE

尽管密集混合专家的预测准确度通常更高，但其计算负载也非常高。

为了解决这个问题，Shazeer et al. 的论文《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》引入了稀疏门控 MoE 层，其能在每次前向通过时仅激活选定的专家子集。该策略实现稀疏性的方式是计算 top-k 个专家的输出的加权和，而非将所有专家的输出聚合到一起。图 2b 展示了这种稀疏 MoE 层的结构。

根据上述论文提出的框架，可对 2.2 式进行修改以反映稀疏门控机制：

这里解释一下：TopK (・, 𝑘) 函数是仅保留向量原始值的前 k 项，同时将其它项设置为 −∞。之后是 softmax 运算，所有 −∞ 项都会变成近似于零。超参数 k 要根据具体应用选取，常见选项是 𝑘 = 1 或 𝑘 = 2。加入噪声项 R_noise 是训练稀疏门控 MoE 层的一种常用策略，可促进专家之间的探索并提升 MoE 训练的稳定性。

尽管稀疏门控 G (x; Θ) 可在不增加相应计算成本的前提下显著扩展模型的参数空间，但也会导致负载平衡问题。负载平衡问题是指各专家的负载分布不均 —— 某些专家被频繁使用，而另一些专家则很少被使用甚至完全不上场。

为了解决这个问题，每个 MoE 层都要集成一个辅助损失函数，其作用是敦促每批次的 token 被均匀分配给各个专家。从数学形式描述来看，首先定义一个包含 T 个 token 的查询批次 B = {x_1 , x_2, ... , x_𝑇 } 以及 N 个专家。则对于其的辅助负载平衡损失定义为：

其中 D_i 是分配给专家 i 的 token 比例，P_i 是分配给专家 i 的门控概率比例。为了确保该批次在 N 个专家之间均匀分布，应当最小化负载平衡损失函数 L_{load-balancing}。当每个专家都被分配了同等数量的 token D_𝑖 = 1/𝑁 和同等的门控概率 P_𝑖 = 1/𝑁 时，即达到最优条件：

此时各专家的负载达到平衡。

在后文中，除非另有明确说明，则「MoE」这一术语单指「稀疏 MoE」。

混合专家的分类

为了帮助研究者在大量采用 MoE 的 LLM 研究中找到目标，该团队开发了一套分类方法，根据三个方面对这些模型进行了分类：算法设计、系统设计和应用。

图 3 展示了这种分类法以及一些代表性研究成果。

下面将全面深入地介绍各类别的情况。

混合专家的算法设计

门控函数

门控函数（也被称为路由函数或路由器）是所有 MoE 架构的基础组件，其作用是协调使用专家计算以及组合各专家的输出。

根据对每个输入的处理方法，该门控可分为三种类型：稀疏式、密集式和 soft 式。其中稀疏式门控机制是激活部分专家，而密集式是激活所有专家，soft 式则包括完全可微方法，包括输入 token 融合和专家融合。图 4 展示了 MoE 模型中使用的各种门控函数。

稀疏式

稀疏门控函数在处理各个输入 token 时会激活被选中的部分专家，这可被视为一种形式的条件计算。

门控函数可以实现多种形式的门控决策，比如二元决策、稀疏或连续决策、随机或确定性决策；其已经得到了深入的研究，可使用各种形式的强化学习和反向传播来训练。

Shazeer et al. 的研究《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》开创性地提出了一种使用辅助负载平衡损失的可微分启发式方法，其中可根据选取概率对专家计算的输出进行加权。这为门控过程引入了可微性，由此可通过梯度来引导门控函数的优化。

后来，这一范式便成了 MoE 研究领域的主导范式。由于这种方法会针对每个输入 token 选择专家，因此可将其看作是 token 选择式门控函数。

以下为这一小节的要点，详见原论文：

token 选择式门控
用于 token 选择式门控的辅助损失
token 选择式门控的专家容量
token 选择式门控的其它进展
不可训练的 token 选择式门控
专家选择式门控

密集式

密集 MoE 是指处理每个输入时都激活所有专家。

虽然稀疏 MoE 有效率方面的优势，但密集 MoE 方向依然在不断迎来创新。尤其值得一提的是，密集激活在 LoRA-MoE 微调方面表现很好，并且 LoRA 专家的计算开销相对较低。这种方法能够有效灵活地集成多个 LoRA 以完成各种下游任务。这能保留原始预训练模型的生成能力，同时保留各个 LoRA 针对各个任务的独有特性。

soft 式

对稀疏 MoE 来说，一大基本离散优化难题是如何决定为每个 token 分配哪些合适的专家。为了确保专家能平衡地参与并尽可能减少无分配 token，这通常必须启发式的辅助损失。在涉及分布外数据的场景（比如推理批次小、有全新输入或迁移学习）中，这个问题尤其显著。

类似于密集 MoE，soft MoE 方法在处理每个输入时也会使用所有专家，从而维持完全可微性，进而避免离散专家选择方法的固有问题。soft MoE 与密集 MoE 的不同在于前者会通过对输入 token 或专家进行门控加权的融合来缓解计算需求。

专家

这一节会介绍 MoE 框架内专家网络的架构，并会讨论协调这些专家的激活的门控函数。

网络类型

自从 MoE 被整合到 Transformer 架构中以来，其通常会替代这些模型中的前向网络（FFN）模块。通常来说，MoE 层中的每个专家都会复制其替换的 FFN 的架构。

这种将 FFN 用作专家的范式到现在依然是主流，但人们也对此做了不少改进。

超参数

稀疏 MoE 模型的规模由几个关键超参数控制，包括：

每个 MoE 层的专家数量
每个专家的大小
MoE 层在整个模型中的放置频率

这些超参数的选择至关重要，因为它会深刻影响模型在各种任务中的性能和计算效率。因此，要根据特定的应用要求和计算基础设施来选择最佳超参数。表 2 给出了一些使用 MoE 的模型的配置情况。

另外，表 3 列举了一些近期的开源模型的参数数量和基准性能。

激活函数

基于密集 Transformer 架构构建的稀疏 MoE 模型采用了与 BERT、T5、GPT 和 LLAMA 等领先的密集 LLM 类似的激活函数。激活函数已经从 ReLU 发展出了 GeLU、GeGLU、SwiGLU 等更先进的选择。

这一趋势也扩展到了 MoE 模型的其它组件，它们经常整合均方根层归一化（RMSNorm）、分组查询注意力（GQA）和旋转位置嵌入（RoPE）等技术。

共享专家

DeepSpeed-MoE 创新性地引入了残差 MoE（Residual-MoE）架构，其中每个 token 都由一个固定专家外加一个门控选择的专家进行处理，实现了每一层都有两个专家参与处理，同时也不会让通信成本超过 top-1 门控方法。这种方法是把门控选择的 MoE 专家当作是固定密集 FFN 的纠错辅助。

NLLB 中使用的条件式 MoE 路由（CMR/Conditional MoE Routing）也采用了类似的方法，将密集 FFN 和 MoE 层的输出组合起来使用。

将固定 FFN 和稀疏 MoE 整合起来的范式通常被称为共享专家，如图 5b 所示。

近期有 DeepSeekMoE、OpenMoE、Qwen1.5-MoE 和 MoCLE 等模型采用这一范式，表明其正在成为一种主流配置。不过 DeepSeekMoE 和 Qwen1.5-MoE 采用了多个共享专家，而不是单个。

混合参数高效型专家

参数高效型微调（PEFT）是一种提升微调效率的方法。简单来说，PEFT 就是在微调时仅更新基础模型的一小部分参数。

PEFT 很成功，但由于其可训练的参数有限以及可能存在的灾难性遗忘问题，该方法难以用于需要泛化到多个任务的情况。

为了缓解这些局限，混合参数高效型专家（MoPE）诞生了，其将 MoE 框架与 PEFT 整合到了一起。MoPE 集成了 MoE 的门控机制与多专家架构，同时每个专家都使用了 PEFT 技术进行构建。这种巧妙的组合能极大提升 PEFT 在多任务场景中的性能。此外，由于使用了 PEFT 来构建专家，因此 MoPE 使用的参数也更少，资源效率比传统 MoE 模型高得多。

MoPE 融合了 MoE 的多任务特性与 PEFT 的资源效率，是一个极具前景的研究方向。图 6 根据在 Transformer 模型架构中的位置对 MoPE 进行了分类。至于 MoPE 方面更详细的研究成果介绍，请参看原论文。

训练和推理方案

混合专家在进步发展，相关的训练和推理方案也在进步发展。

初始的训练和推理方案需要从头开始训练 MoE 模型，直接采用训练的模型配置来执行推理。

但现在，MoE 模型的训练和推理方面已经出现了许多新范式，包括组合密集模型和稀疏模型的优势实现取长补短。

图 7 展示了与 MoE 相关的训练和推理方案，可以看到新出现的方案可分为三类：

密集到稀疏：从密集模型训练开始，逐步过渡到稀疏 MoE 配置；
稀疏到密集：涉及到将稀疏 MoE 模型降格为密集形式，这有利于将推理实现为硬件形式；
专家模型融合：将多个预训练密集专家模型整合成一个统一的 MoE 模型。

MoE 的衍生技术

混合专家（MoE）启发了许多不同的变体技术。举个例子，Xue et al. 的论文《Go wider instead of deeper》提出了模型宽度增大的 WideNet，其做法是将前向网络（FFN）替换成 MoE 层，同时维持 Transformer 层上的共享可训练参数，但归一化层除外。

另外还有 Tan et al. 提出的 SYT（稀疏通用 Transformer）、Antoniak et al. 提出的 MoT（混合 token）、Choi et al. 提出的 SMoP（稀疏混合提词）、Chen et al. 提出的 Lifelong-MoE、Raposo et al. 提出的 MoD（混合深度）等。

总结一下，MoE 衍生技术的发展揭示了一个趋势：MoE 的功能越来越多，越来越能适应不同的领域。

混合专家的系统设计

混合专家（MoE）虽然能增强大型语言模型的能力，但也带来了新的技术挑战，因为其具有稀疏且动态的计算负载。

GShard 引入了专家并行化（expert parallelism），可根据专家能力的负载平衡限制来调度切分后的局部 token，从而实现并行的门控和专家计算。该范式已经成为促进 MoE 模型高效扩展的基础策略。我们可以将该方法看作是增强版的数据并行化 ——MoE 层中的每个专家都被分配到一台不同设备，同时所有设备上都重复配备所有非专家层。

如图 8a 所示，专家并行化的工作流程是按顺序执行以下操作：门路由、输入编码、All-to-All 调度、专家计算、All-to-All 组合、输出解码。

一般来说，GEMM 的输入大小需要足够大，以便充分利用计算设备。因此，要使用输入编码将同一个专家的输入 token 聚合到连续的内存空间中，这由门路由中的「token - 专家映射」决定。之后，All-to-All 调度的作用是将输入 token 分发给各设备上对应的专家。之后是专家的本地化计算。计算完成后再通过 All-to-All 组合汇总，然后解码输出，根据门控索引恢复原始数据的布局。

此外，也有研究者探索专家并行化与其它已有并行策略（比如张量、管道化、序列并行化）的协同，以提升 MoE 模型在大规模分布式环境中的可扩展性和效率。

图 8 中给出了一些混合并行化示例，包括 (b) 数据 + 专家 + 张量并行化、(c) 数据 + 专家 + 管道并行化、(d) 专家 + 张量并行。

需要认识到，计算效率、通信负载、内存占用之间存在复杂的相互作用，分布式并行化策略的选择会对其产生影响，并且也会被不同的硬件配置影响。因此，在部署用于实际应用的策略时，必须细致地权衡考虑并针对具体场景进行调整。

之后，该团队分计算、通信和存储三大板块介绍了 MoE 模型开发所面临的系统设计难题以及解决这些难题的研究成果，详见原论文。表 4 给出了开源 MoE 框架的概况。

混合专家的应用

在当前 Transformer 主导的大型语言模型（LLM）领域，混合专家（MoE）范式颇具吸引力，因为其能在不给训练和推理阶段引入过大计算需求的前提下大幅提升模型能力。这类技术能显著 LLM 在多种下游任务上的性能，甚至造就了一些超越人类水平的 AI 应用。

有传言说强大如斯的 GPT-4 可能也采用了某种 MoE 架构 —— 由 8 个 2200 亿参数的专家构成，在多样化的数据集和任务上完成了训练，并使用了一种 16 次迭代的推理过程。有关该传言的更多详情可参阅机器之心报道《终极「揭秘」：GPT-4 模型架构、训练成本、数据集信息都被扒出来了》。

所以，毫不奇怪 MoE 在自然语言处理、计算机视觉、推荐系统和多模态应用中遍地开花了。

这些应用本质上就需要使用条件计算来大幅提升模型的参数量，以此增强模型在固定计算成本下的性能，或通过门控机制实现动态专家选择来实现高效多任务学习。

该团队也介绍了这些不同领域的代表性 MoE 应用，可帮助读者理解如何将 MoE 用于具体任务。详见原论文。

挑战与机遇

混合专家，功能强大，降低成本，提升性能。前景虽好，仍有挑战。

这一节中，该团队梳理了 MoE 相关的关键性挑战，并指出了有希望获得重要成果的未来研究方向。下面简要列出了这些挑战和研究方向，更多详情请查看原论文。

训练稳定性和负载平衡
可扩展性和通信开销
专家的专业化和协作
稀疏激活和计算效率
泛化和稳健性
可解释性和透明性
最优的专家架构
与现有框架整合

扩展阅读：MoE 相关报道

基础：

前沿：

入门MOE

相关技术

机器学习物体识别深度学习人脸识别图像分割

激活函数技术

在计算网络中，一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。一种函数（例如 ReLU 或 S 型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

来源：维基百科 Google ML glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源，如线程、进程或数据流；也可以指硬件资源，如处理器、网络连接或扩展卡。进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态，允许多位用户有效地同时共享系统资源，或达到指定的服务质量。 see planning for more details

来源：维基百科

自注意力技术

自注意力（Self-attention），有时也称为内部注意力，它是一种涉及单序列不同位置的注意力机制，并能计算序列的表征。自注意力在多种任务中都有非常成功的应用，例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系，这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在维空间内，有个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。称为该张量的秩或阶（与矩阵的秩和阶均无关系）。在数学里，张量是一种几何实体，或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达，记作标量的数组，但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中，表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了，它们都是二阶张量，对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

专家网络技术

专家网络建立在专家系统(expert system)的基础之上，它的本质是一个事件驱动性的(event-driven)神经网络。与普通神经网络不同，专家网络的线性和非线性处理更加复杂，因为它以知识库(knowledge base)和推理机(inference machine)为基础。根据知识库构造一个推理网络，用专家系统的推理规则(inference rule)定义网络节点的线性和非线性处理函数。知识库系统的主要工作是搜集人类的知识，将之有系统地表达或模块化，使计算机可以进行推论、解决问题。推理机是由算法或决策策略来进行与知识库内各项专门知识的推论，依据使用者的问题来推得正确的答案。因此，专家网络初始的拓朴结构由知识库确定，网络的动态性则由推理机确定。

来源：Lacher, R. C., Hruska, S. I., & Kuncicky, D. C. (1992). Back-propagation learning in expert networks. IEEE Transactions on Neural Networks, 3(1), 62-72.

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

多任务学习技术

批次技术

模型训练的一次迭代（即一次梯度更新）中使用的样本集。

来源：Google ML glossary

层归一化技术

深度神经网络的训练是具有高度的计算复杂性的。减少训练的时间成本的一种方法是对神经元的输入进行规范化处理进而加快网络的收敛速度。层规范化是在训练时和测试时对数据同时进行处理，通过对输入同一层的数据进行汇总，计算平均值和方差，来对每一层的输入数据做规范化处理。层规范化是基于批规范化进行优化得到的。相比较而言，批规范化是对一个神经元输入的数据以mini-batch为单位来进行汇总，计算平均值和方法，再用这个数据对每个训练样例的输入进行规整。层规范化在面对RNN等问题的时候效果更加优越，也不会受到mini-batch选值的影响。

来源：Ba J L, Kiros J R, Hinton G E. Layer Normalization

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/