Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

DeepSeek开源FlashMLA:Hopper GPU解码新标杆,测评大揭秘!

DeepSeek今天正式启动为期五天的开源成果发布计划,首个亮相的项目是FlashMLA。这一开源项目将先进的MLA算法与GPU优化技术相结合,为大模型推理提供了一套高性能、低延迟的解码方案。

FlashMLA是一款专门为Hopper GPU(比如H800 SXM5)优化的高效MLA解码内核,旨在加速大模型的计算任务,尤其是在NVIDIA高端显卡上提升性能。

通过FlashMLA,开发者能够在处理大规模语言模型时显著提高效率,降低延迟。与传统解码器相比,FlashMLA在处理可变长度序列时展现出更高的计算效率。

PPIO派欧云第一时间对FlashMLA在主流Hopper GPU(H20、H100、H200、H800)上的性能进行了评测。在深入了解评测结果之前,我们先来了解一下相关的背景知识。

科普时间:什么是Hopper GPU、解码内核和MLA?

Hopper GPU:NVIDIA推出的新一代高性能GPU架构,专为AI和高性能计算(HPC)设计。它采用先进制程技术和创新架构,在复杂计算任务中提供卓越的性能和能效。主流的Hopper GPU包括H20、H100、H200和H800。

解码内核:专门用于加速解码任务的硬件或软件模块。在AI推理中,解码内核能显著提升模型推理的速度和效率,尤其是在处理序列数据时。

MLA:多头潜在注意力(Multi-head Latent Attention)的简称,MLA对KV缓存的需求更轻量化,使其在处理长序列时更容易扩展,同时性能也优于传统的多头注意力机制(Multi-Head Attention, MHA)。

FlashMLA性能实测

DeepSeek官方宣称,FlashMLA在H800 SXM5 GPU上可达到3000 GB/s的内存速度上限和580 TFLOPS的计算上限。在PPIO派欧云对FlashMLA的评测中,我们对不同参数配置下的性能进行了全面测试。为了更直观地展示结果,横坐标依次表示测试的参数配置,具体包括:

批次大小(Batch Size)

•序列长度(Sequence Length)

•注意力头的数量(Number of Attention Heads)

评测结果如下: 

H20 GPU:内存速度上限为1024 GB/s,计算性能上限为126 TFLOPS。

H100 GPU:内存速度上限为2906 GB/s,计算性能上限为526 TFLOPS。

H200 GPU:内存速度上限为3887 GB/s,计算性能上限为512 TFLOPS。

H800 GPU:内存速度上限为 1785 GB/s,计算性能上限为 331 TFLOPS。

本测试结果基于官方测试脚本。由于官方最优参数配置未知,数据可能未达到理论上限。

FlashMLA对主流推理框架的影响

FlashMLA的发布不仅吸引了开发者的目光,也引起了主流推理框架的重视。两大热门框架vLLM和SGLang都对FlashMLA做出了积极回应。

vLLM团队预计很快会实现集成FlashMLA。技术上,FlashMLA基于PagedAttention实现,与vLLM的技术栈高度兼容,集成后有望进一步提升vLLM的推理性能。

SGLang会继续用已经合并了的FlashInferMLA。根据他们的评测,FlashInferMLA的性能与FlashMLA基本相当。


产业
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

Hopper机构

Hopper开发了一个移动应用程序,它使用大数据来预测和分析机票价格。它的应用程序向旅行者提供他们在航班上获得交易所需的信息,并在航班价格处于预测的最低点时通知他们。

官网,http://www.hopper.com/
推荐文章
暂无评论
暂无评论~