性能有优势,可扩展性也更好。
英伟达的 AI 加速卡,现在有了旗鼓相当的对手。
今天凌晨,英特尔在 Vision 2024 大会上展示了 Gaudi 3,这是其子公司 Habana Labs 的最新一代高性能人工智能加速器。
Gaudi 3 将于 2024 年第三季度推出,英特尔现已开始向客户提供样品。凭借 1835 TFLOPS 的 FP8 计算吞吐量,英特尔相信它足以在广阔的(且昂贵的)AI 计算领域中分得一杯羹。
根据内部基准测试,英特尔估计 Gaudi 3 性能部分超过了英伟达的 H100,并且具有更好的能耗比。在一些关键的大型语言模型中,Gaudi 3 能够击败英伟达的旗舰 H100/H200 Hopper 架构 GPU。
在当前这个科技领域抢购英伟达 GPU 的时刻,Gaudi 3 或许能为英特尔在 AI 加速器市场打开一扇门。
Gaudi 3 的发布也正值英特尔对其 AI 加速器产品的定位发生变化之际:当前,Gaudi 系列已升级为英特尔旗舰 AI 加速器。
Gaudi 3 是 Gaudi 2 硬件的直接演变。Habana Labs 在这一代没有对架构进行大规模修改(这将在 Falcon Shores 中进行)。
上一代 Gaudi 2 加速器基于台积电 7nm 工艺打造,在 Gaudi 3 上 Habana 引入了更先进的 5nm 工艺。Gaudi 3 芯片又添加了适量的计算硬件,从 2 个矩阵数学引擎和 24 个张量核心扩展到 4 个矩阵数学引擎和 32 个张量核心。鉴于 Gaudi 3 的架构变化有限,我们或许可以假设这些张量核心仍然是 256 字节宽的 VLIW SIMD 单元。
图片来自 Anandtech
Habana 团队罕见地公开了 Gaudi 3 芯片 FP8 精度的总吞吐量:1835 TFLOPS,这让 Gaudi 3 使用 8 位浮点计算产生的 AI 算力是 Gaudi 2 的两倍,BFloat 16 格式的算力提升则达到了四倍。
在大语言模型的实际处理上,英特尔预计用 Gaudi 3 训练 GPT-3 175B 大型语言模型的时间比 H100 要快 40%,Llama2 的 70 亿和 80 亿参数版本的训练结果甚至比这个数字还要好。
在推理方面,两者性能各有胜负,新芯片为两个版本的 Llama 提供了 H100 95% 至 170% 的性能。而对于 Falcon 180B 型号来说,Gaudi 3 却取得了四倍的优势。不出所料,与 Nvidia H200 相比,英特尔芯片的优势较小 ——Llama 为 80% 至 110%,Falcon 为 3.8 倍。
英特尔声称在测量能效时获得了更引人注目的结果,预计 H100 在 Llama 上的优势高达 220%,在 Falcon 上的数字则是 230%。
虽然英特尔没有透露 Gaudi 3 芯片的晶体管总数,但新硬件的面积足够小,以至于英特尔能够将两个 die 封装到单个芯片上,从而使完整的 Gaudi 3 加速器成为双芯配置。与英伟达最近发布的 Blackwell 类似,两块相同的芯片被封装在一起,并通过高带宽链路连接,以便为芯片提供统一的内存地址空间。
据英特尔称,组合后的芯片将像单个芯片一样工作,但英伟达没有透露连接链路的任何重要细节。
奇怪的是,与芯片匹配的是有点「过时」的 HBM2e 内存控制器,与 Gaudi 2 支持的内存类型相同。由于坚持使用 HBM2e,可用的最高容量堆栈为 16GB,为加速器提供了总共 128GB 的内存。其时钟频率为 3.7Gbps/pin,总内存带宽为 3.7TB / 秒。每块 Gaudi 3 芯片均提供 4 个 HBM2e PHY,使芯片总数达到 8 个内存堆栈。
同时,每个 Gaudi 3 芯片都具有 48MB 板载 SRAM,为整个芯片提供 96MB SRAM。英特尔称,SRAM 总带宽为 12.8TB / 秒。英特尔没有透露 Gaudi 3 加速器的时钟速度。鉴于现有硬件数量增加了一倍多,这里或许会考虑整体较低的时钟速度。
在这一点上,基本风冷式 Gaudi 3 加速器的 TDP 为 900 瓦,比其前身的 600 瓦限制高出 50%。英特尔在这里使用 OAM 2.0 外形尺寸,它提供比 OAM 1.x (700W) 更高的功率限制。不过,英特尔还在开发并验证 Gaudi 3 的液冷版本,它将提供更高的性能,以换取更高的 TDP。所有形式的 Gaudi 3 都将使用 PCIe 连接其主机 CPU。
网络连接
除了 Gaudi 3 的核心架构之外,Habana 对 Gaudi 3 的另一项重大技术升级是在 I/O 方面。回到 Gaudi 的早期,Habana 的芯片就依赖于全以太网架构,使用以太网进行节点内芯片到芯片连接和横向扩展节点到节点连接。它本质上与英伟达所做的相反 —— 是将以太网扩展到芯片级别,而不是将 NVLink 扩展到机架级别。
上一代的 Gaudi 2 每块芯片提供 24 个 100Gb 以太网链路,Gaudi 3 将这些链路的带宽增加了一倍,达到 200Gb / 秒,使芯片的外部以太网 I/O 总带宽达到 8.4TB / 秒。
与此同时,每块芯片的剩余 3 个链路将用于为六组 800Gb 八路小型可插拔 (OSFP) 以太网链路提供信号。通过使用重定时器,端口将被分成两个块,然后在 5 个加速器上进行平衡。
最终,英特尔希望提升 Gaudi 3 的可扩展性。由于先进大语言模型需要将许多节点链接在一起形成一个集群,以提供训练所需的内存和计算性能,一直以来,英特尔都希望通过采用纯以太网配置来赢得那些不想投资 InfiniBand 等专有 / 替代互连技术的客户。
英特尔已经开发了多达 512 个节点的网络拓扑,使用 48 个主干交换机连接多达 32 个集群,每个集群包含 16 个节点。据英特尔称,Gaudi 3 还可以进一步扩展,达到数千个节点。
性能对比
英特尔表示,与目前业内先进的 AI 加速器英伟达 H100 相比,Gaudi 3 在 16 个加速器集群中以 FP8 精度训练 Llama2-13B 时,性能比 H100 快 70%。尽管 H100 已经问世 2 年,但如果 Gaudi 3 成功的话,在任何训练方面都大幅击败 H100 对于英特尔来说将是一个巨大的胜利。
与此同时,英特尔预计采用 Gaudi 3 的 H200/H100 的推理性能将提高 1.3 倍至 1.5 倍,也许最值得注意的是,功耗比将提高多至 2.3 倍。
当然,在这些推理工作负载中,英特尔有时仍然会输给 H100,尤其是那些没有 2K 输出的工作负载,因此 Gaudi 3 还远未横扫一切。
不过值得赞扬的是,英特尔是迄今为止唯一一家提供 MLPerf 结果的主要硬件制造商。因此,无论 Gaudi 3 的表现如何(以及 Gaudi 2 目前的表现),他们在发布行业标准测试结果方面比大多数人都光明正大得多。
样品第二季度出货
总而言之,英特尔将在下个季度发布首款 Gaudi 3 产品。该公司已经在其实验室中拥有风冷版本的 OEAM 加速器以进行资格认证,并向客户提供样品,同时液冷版本将于本季度提供样品。
最后,对于 Gaudi 团队来说,英特尔还将首次提供采用更传统 PCIe 外形规格的 Gaudi 3 版本。HL-338 卡是一款 10.5 英寸全高双槽 PCIe 卡。它提供与 OAM Gaudi 3 相同的所有硬件,甚至可达到 1835 TFLOPS FP8 的峰值性能。然而,它将配备对 PCIe 插槽更友好的 600 瓦 TDP,比 OAM 卡低 300 瓦,因此持续性能应该会明显降低。
尽管英特尔 Keynote 中未有展示,但 PCIe 卡提供了两个 400Gb 以太网端口,用于横向扩展配置。与此同时,英特尔将为 PCIe 卡提供一个「顶板」,类似于英伟达的 NVLink 桥,可以连接最多 4 个 PCIe 卡以进行卡间通信。OAM 外形尺寸仍将是实现每个加速器最高性能和最大化横向扩展潜力的途径,但对于需要在传统 PCIe 插槽中即插即用的客户来说,现在也有了一个选择。
PCIe 版本的 Gaudi 3 将于今年第四季度推出,同时推出液冷版本的 OAM 模块。
参考内容:
https://www.intel.com/content/www/us/en/newsroom/news/vision-2024-keynote-livestream-replay.html#gs.7pzjdw
https://spectrum.ieee.org/intel-gaudi-3
https://www.anandtech.com/show/21342/intel-introduces-gaudi-3-accelerator-going-bigger-and-aiming-higher