机器之心原创

2025/04/13 15:16

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

终于，华为盘古大模型系列上新了，而且是昇腾原生的通用千亿级语言大模型。

我们知道，如今各大科技公司纷纷发布百亿、千亿级模型。但这些大部分模型训练主要依赖英伟达的 GPU。

而现在的情形下，国内研究团队很难获得足够的计算资源，这也制约了国内大模型技术的快速发展。

我们看到华为盘古发布的这篇新研究，证明了基于全国产的昇腾也可以实现领先的大规模语言模型的研究与开发。

技术报告标题：Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs
技术报告地址：https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf

研究称华为盘古团队成功开发出基于昇腾算力训练的千亿级通用语言大模型 Pangu Ultra。在效果上，Pangu Ultra 在多个领域和评测上超越之前 Llama 405B 和 Mistral Large 2 等稠密模型，并可以与 DeepSeek-R1 等更大规模的稀疏模型一较高下。

Pangu Ultra 是一个拥有 94 层架构、总参数量达 135B 的超大稠密模型。针对超深千亿级大模型的训练稳定性问题，研究团队提出了新的稳定性架构和初始化方法，成功实现了在 13.2T 高质量数据上的全流程无 loss 突刺长稳训练。同时，在系统实现层面，团队通过一系列系统优化策略，在 8192 张昇腾 NPU 构建的大规模集群上将算力利用率（MFU）提升至 50%。

接下来，让我们从模型架构、模型训练等方面，详细了解下 Pangu Ultra 的技术细节。

模型架构

基础架构信息：Pangu Ultra 包含 1350 亿参数、采用了 94 层的 Transformer 结构。其中 FFN 采用 SwiGLU 激活。注意力层采用 GQA 降低 KV 缓存占用。

Pangu Ultra 针对大规模极深模型的训练稳定性问题提出了 Depth-scaled sandwich-norm 和 TinyInit 初始化两项技术。

Depth-scaled sandwich-norm：与混合专家模型（MoE）侧重在宽度上扩展不同，大规模稠密模型通常采用更深的层数。然而，深度增加会加剧训练稳定性的挑战。考虑到预训练的巨大成本，保证大模型的稳定训练至关重要。

Pre-LN 在基于 Transformer 的大语言模型架构中被广泛应用，但采用 Pre-LN 的模型中，各子层输出尺度的波动容易导致训练不稳定。为解决此问题，Sandwich-Norm 在残差连接前对每个子层输出额外施加 layer norm。虽然 Sandwich-Norm 能保持单个子层输出的尺度稳定性，但跨越多层的残差连接仍会导致输出范数逐渐累积，进而引发训练不稳定。

为此，Pangu Ultra 提出 Depth-Scaled Sandwich-Norm（DSSN）。该技术通过对每个子层输出的 layer norm 的 gamma 参数来调控各层输出尺度，通过把 gamma 参数初始化为与网络深度的平方根倒数成比例。下图展示了 Depth-Scaled Sandwich-Norm 与 Pre-LN 架构的差异。实验结果表明所提出方法相比基准方法在稳定性和收敛性都具有较大优势（见模型结果与分析）。

^{Pre-LN 与 DSSN 架构对比。相比 Sandiwich norm，DSSN 对 layer norm 系数做了特殊的 re-scale}

TinyInit: 模型初始化对训练稳定性和性能具有关键影响。基于 Transformer 的大语言模型普遍采用 small init 策略，即所有权重初始化为标准差为的正态分布。另外有工作将残差层权重在初始化时缩放倍。

Pangu 提出了同时根据模型深度和宽度缩放的参数初始化策略 TinyInit，所有权重初始化标准差，能加速 loss 收敛并提升下游任务性能。TinyInit 能使模型各部分的参数尺度更加一致，从而有利于优化和收敛（见模型结果与分析）。

Pangu Tokenizer：在 Pangu Ultra 的中，作者优化了分词器（Tokenizer）。传统方法在构建词汇表时，常因数据分布导致通用文本占比过高，而代码、数学等专业领域的词元代表性不足。为解决此问题，Pangu Ultra 采用了「领域感知」的分词词表策略：

对通用中文、通用英文、代码、数学等多个关键领域的数据独立进行词频分析，生成领域专属词汇表。
随后，将这些词汇表合并与去重，形成了一个包含 153376 词元的分词词表。

这种方法提升了词汇表在不同领域间的均衡性，确保了模型在处理文本、代码、数学等多样化任务时，都能获得更精准、高效的理解基础，同时保持了良好的整体压缩效率。

^{各领域词在 Pangu 词表中的分布}

模型训练

预训练策略与数据：Pangu Ultra 的预训练过程的三个阶段：12T tokens 的通用能力训练、0.8T tokens 的推理能力增训以及 0.4T tokens 的退火阶段。

^{Pangu Ultra 预训练各个阶段的数据配比}

Pangu Ultra 模型的预训练语料覆盖了高质量、多样化的 13.2T tokens，如上表所示，整个预训练过程分为三个阶段：通用阶段（General）、推理阶段（Reasoning）和退火阶段（Annealing）。

通用阶段（12T）旨在帮助模型积累知识和语言表达能力，推理阶段（0.8T）旨在强化模型推理技能，而退火阶段（0.4T）则进一步教会模型如何运用已学到的知识和推理技能。

团队为训练语料打了质量与难度的标签分数，并在上述三个阶段中采用课程式的数据采样策略，即完成一个从易到难的学习过程：

通用阶段覆盖了大量的书籍、网页、百科、多语言以及各行各业的语料，实际训练中分成了两个子阶段，训练量分别为 7.4T 和 4.6T tokens；
推理阶段重点提高泛数学、理科以及代码数据的比重，强推理数据占比超过 60%；
退火阶段将指令类数据占比提高到 20%，旨在激发模型更好的应用知识和推理技能。团队设计了大量的指令类问答对，并且包含长、短思维链，这些推理路径经过精心优化，以确保内容清晰且逻辑连贯。

数据质量评估是提升模型训练效果的核心环节，Pangu Ultra 结合规则筛选与 AI 评估优化数据质量。团队设计人工标注数据，微调盘古系列模型作为质量评估器，从数据干净度、流畅性、教育价值和信息密度四个维度，对超过 10T 语料进行打分，并且赋予高质量语料更高的采样概率。

团队基于 Pangu 26 亿参数的代理模型进行了大量的消融实验，结果表明基于低质量数据训练的模型需要多 1.6 倍训练量才能达成基于高质量数据的同等效果，进一步印证了数据质量对于提升训练效率的关键价值。

长序列扩展：Pangu Ultra 模型通过两阶段长度扩展训练将可支持的输入 token 数增加到 128K，可以输入约 10 万英语单词或者 17 万中文汉字。针对长序列训练中 RoPE 基础频率这一重要参数，在训练前首先在目标扩展长度的特定验证集上对不同的参数进行评测来搜索出最优的参数，保证了长度扩展的效果。

后训练策略与数据：在模型后训练阶段，通过两阶段优化实现能力跃升：首先采用监督微调（SFT）建立基础指令跟随能力，随后引入基于结果的强化学习（RL）框架，显著提升模型的复杂推理、价值对齐和指令执行能力。为充分发挥昇腾算力优势，研究团队特别设计了具有延迟容忍特性的强化学习框架，配合融合确定性信号与模型评估的混合奖励系统，在数学推导、代码生成和通用问题解决三大领域构建精准反馈机制，确保大规模策略优化的效率与稳定性。

模型在 AIME 2024、MATH-500、GPQA Diamond 和 LiveCodeBench 等核心推理基准上取得了理想的性能，验证了后训练架构的有效性，这既得益于预训练阶段 0.8T 规模的专项推理数据积累，也源于强化学习阶段对模型潜力的深度激发。同时模型仍保持强大的通用语言理解能力（MMLU-pro 和 ArenaHard），彰显了技术路径的均衡性，结果见模型结果与分析部分。

系统优化

Pangu Ultra 135B 的训练环境是一个配备了 8192 个昇腾 NPU 的大规模计算集群。团队通过混合并行策略、细粒度负载均衡调优、高效融合算子、子序列切分以及数据缓存共享等技术手段，在 8192 卡规模的集群中实现了超过 50% 的 MFU（Model FLOPs Utilization）。

并行策略：为了扩展 Pangu Ultra 的训练规模并提升集群线性度，团队采用了混合并行策略。在 8192 卡规模的集群中，使用了 128 路数据并行（Data Parallelism）、8 路张量并行（Tensor Parallelism）和 8 路流水线并行（Pipeline Parallelism），同时结合了 ZeRO 和序列并行（Sequence Parallelism），以降低模型参数、优化器状态和激活值的显存占用。由于 batch-size 的限制，大规模集群训练中每个数据并行（DP）组的批次较小，导致较高的流水线空泡率。为解决这一问题，团队引入了 6 路虚拟流水线（Virtual Pipeline）调度算法，将训练空泡率从 30.45% 降低至 6.8%。通过一系列精细的负载均衡优化，在 BF16 训练精度下实现了 43% 的 MFU。

系统优化：为了进一步提升大规模集群的训练效率，团队从多个方面进行了系统优化，将 8192 卡训练的 MFU 从 43% 提升至 52%。关键优化技术包括：

MC2（Merged Compute and Communication）通算融合

通过将训练中的矩阵乘法（MatMul）计算与张量并行（TP）切分引入的通信操作细粒度拆分，并对计算和通信操作进行深度流水线编排，实现了通信与矩阵乘法的高效重叠，显著提升了资源利用率和训练效率。

NPU Fusion Attention（NFA）

针对昇腾 NPU 优化的自注意力（Self-Attention）融合算子，支持 Attention Mask 压缩，避免了显式构造 Attention Mask 带来的计算和显存开销。在 Pangu Ultra 训练中，根据每个样本的结束标记（EOD）计算出实际序列长度（actual_seq_len），并将其传入 NFA。NFA 内部使用一个 2048×2048 的下三角矩阵作为素材库，根据 actual_seq_len 动态构造训练时的 Attention Mask，从而在重置 Attention Mask 的场景下实现高效的自注意力计算。

其他融合算子

除了 MC2 和 NFA，训练还采用了 RMSNorm、SwiGLU、RoPE 融合算子、梯度累加融合以及 PP send/recv 融合等技术，进一步提升了系统性能。

子序列切分

上下文并行（Context Parallelism，CP）是长序列训练中常用的优化方法。为了实现 CP 切分下的负载均衡，Megatron-LM 将序列切分为 2×CP 个子序列，每个设备负责计算上下两个 chunk 的数据（见图 1.(b)）。然而，这种切分方式在重置 Attention Mask 的场景下仍会导致负载不均（见图 1.(c)）。Pangu Ultra 采用了改进的子序列切分并行方式，针对每个样本中的子序列采用负载均衡的切分策略，每个节点负责计算子序列中的两个 chunks（见图 1.(d)）。

^{图 1. 子序列切分的序列并行方式}

显存优化

允许同一计算设备上的不同 vpp stage 之间共享 attention mask/actual_seq_len，RoPE sin/cos， position embedding 等数据。避免重复的计算和显存开销。

模型结果与分析

Pangu Ultra 实现了昇腾近万卡大集群上约 13T 数据的长稳训练，DSSN 和 TinyInit 保障训练全程没有出现任何 loss 突刺，如下图：

^{Pangu Ultra 预训练 Loss，全流程无 loss 突刺}

Pangu Ultra 的预训练基座模型测评结果如下。对比稠密架构的代表 Qwen2.5-72B 和 Llama 405B 以及 MoE 架构的代表 DeepSeek V3。Pangu Ultra 在大多数 benchmark 上取得了最好的效果，和同为稠密架构的模型对比优势更加明显。

^{Pangu Ultra Base 测评结果，粗体表明最好结果，下划线表明该模型在 dense 中最好}

经过后训练之后，Pangu Ultra 在主要的 Reasoning benchmark 上的表现如下所示。

^{Pangu Ultra 在 Reasoning Benchmarks 上的表现}

Pangu Ultra 在 AIME24，MATH-500，GPQA，MMLU-Pro 等指标上超越 DeepSeek R1。关于盘古后训练使用的相关技术将在之后的报告中发布。

针对训练稳定性，团队发现 DSSN 和常见的 Pre-Norm（Pre-LN）架构对比能够完全杜绝训练中的 loss 突刺现象。在 gradient norm 上，使用 DSSN 的模型也更加平稳，突刺更少。经过测评，DSSN 架构的模型效果也超出 Pre-LN 架构，说明避免训练突刺的重要性。

^{DSSN 与 Pre-LN 的训练对比}

^{DSSN 架构和 Pre-LN 架构的测评效果对比}

使用 Sandwich-Norm 架构时，RMSNorm 的 affine 参数 \gamma 初始化非常重要，该研究提出的 DSSN 方案与普通 Sandwich-Norm 架构对比训练 loss 也更加平稳，且收敛更快，如下图所示。

^{DSSN 对比普通 Sandwich-Norm}

关于 TinyInit，团队在 135B 的模型规模上训练了约 100B tokens，和经典基线初始化方案相比取得了较为明显的优势。

^{TinyInit 对比普通初始化的模型测评效果}

感兴趣的读者可以阅读论文原文，了解更多研究内容。

产业Pangu Ultra盘古大模型华为