在接连收购两家云端 AI 芯片初创,以巩固自己最为重要的数据中心市场之后,英特尔终于在两虎之间做出了选择。
Habana 因其出色的可扩展性技术与设计,还有量产交付能力击败 Nervana。但这并不意味着最终胜利。对于英特尔来说,只要看到了超越英伟达的机会,他就不会吝啬,关键仅在于是否选择了正确的芯片。
Habana 因其出色的可扩展性技术与设计,还有量产交付能力击败 Nervana。但这并不意味着最终胜利。对于英特尔来说,只要看到了超越英伟达的机会,他就不会吝啬,关键仅在于是否选择了正确的芯片。
近日,外媒爆料了英特尔在 AI 领域的新动作。福布斯称,Intel 将停掉台积电 16nm 代工的 Nervana 芯片,主要是其中的 Nervana NNP-T 系列。Intel 没有大张旗鼓对外宣布此事,但已通过邮件向分析师和客户告知:
已停止已停止开发 Nervana NNP-T 训练芯片(之前代号 Spring Crest),但会兑现之前在推理芯片 Nervana NNP-I(代号 Spring Hill)向客户许下的承诺。
Habana 产品线提供了同时面向推理和训练的统一高度可编程的架构所拥有的强大战略优势。通过改用单一的硬件架构和软件堆栈以实现数据中心 AI 加速,我们的工程团队可以携起手来,致力于为客户更迅速地提供更多的创新。
本周五,深度学习分析师 Karl Freund 也在推文中指出,英特尔将完全停止英特尔在 2016 年收购的深度学习芯片初创公司 Nervana 的 NNP-T 产品,而专注于 Habana Labs。
1 为什么收购两家云端AI公司?
尽管 Intel 在 AI 领域的终端、边缘计算和云端均有布局,但是重中之重仍然是利用 Intel 在云数据中心的强势地位,确保其在云端 AI 芯片市场的地位。这也是它接连收购 Nervana 和 Habana 两家云端 AI 芯片公司重要原因。
2019 年 12 月 16 日,英特尔收购 Habana Labs 的传闻被敲定,此次收购仍延续着英特尔「大手大脚」的作风——20 亿美元,仅次于 Mobileye 第二大收购。
当时,Habana 拥有两款产品 Gaudi AI Training Processor 和 Goya AI Inference Processor。值得注意的是,Gaudi 人工智能训练处理器已经在为特定超大规模客户提供样品,Goya 人工智能推理处理器已实现商用。
其中,Gaudi 是 Habana 用于加速训练的微体系结构。运用 TSMC 16 纳米工艺设计,该芯片将八个 TCP 与 GEMM 引擎集成在一个集群中。Goya 是 Habana 的微体系结构,用于加速推理。Goya 采用台积电(TSMC)16 纳米工艺制造,这个产品实际上是 Gaudi 的简化版本。
不过,早在收购 Habana 之前,2016 年 8 月,英特尔以 4.08 亿美元的价格收购了深度学习技术初创公司 Nervana。
这家公司的主要产品就是 Nervana 神经网络芯片,其架构设计很有特色,针对 AI 需要高性能内存的特点放弃了标准缓存系统,改用软件管理内存系统。
但是,和 Habana 不同,Nervana 并没有量产产品。收购 Nervana 三年后,Intel 才推出 Nervana NNP-T 及 Nervana NNP-I。
Nervana NNP-T 系列,代号 Spring Crest,主要面向 AI 训练,使用的是台积电 16nm 工艺生产,核心面积高达 680mm2,集成 270 亿晶体管,搭配 32GB HBM2 显存,频率 1.1GHz,TDP 150-250W,对标 NVIDIA Tesla 系列 GPU 加速芯片。
相比之下,Nervana NNP-I 系列 AI 芯片规模要小很多,代号 Spring Hill,主要面向 AI 推理应用,CPU 部分是 Intel 的 10nm 工艺 Ice Lake 核心,功耗在 10-50W 之间,有 M.2 及 PCIe 两种规格,更为小巧灵活。
2 谁更靠谱?
就在宣布收购 Habana 之前的一个月,英特尔曾重申过 Nervana 芯片的交付计划。当时就有一些分析人士认为,收购事件可能表明,客户对 Nervana 硬件并不满意,不愿意再次使用 Nervana。既然 Nervana 无法跟上快速发展的市场的步伐,英特尔就要继续探索其他选择。
如今,英特尔停掉台积电 16nm 代工的 Nervana 芯片,也佐证了这一猜测。英特尔表示,它是在征求其工程师和大客户的反馈之后做出这一决策的。反馈表明,代号为 Spring Hill 和 Spring Crest 的第二代 Nervana 设计根本满足不了那些高性能工作负载的要求。
这些客户还提到,Habana 是一个可与 Intel 一较高下的优选平台。其中,Facebook 已向 Intel 明确表达:「你需要获得一种更好的芯片。」
首先,Habana 网络技术很可能是英特尔决定放弃 Nervana 而是转而使用 Habana 技术的关键原因之一。
Nervana 的神经网络处理器(NNP-T)使用专有的互连进行扩展,而 Habana 的 Gaudi 可以通过标准 100Gb 以太网扩展到数千个节点。而且,Gaudi 甚至还支持远程直接内存访问 RDMA,该功能使软件可以访问整个结构中的内存,而无需增加远程 CPU 的负担。
这种结构可以显着提高训练大规模神经网络模型的性能,以应对每 3 个半月神经网络模型大小就会增加一倍,处理越来越复杂 AI 任务的趋势。
除此之外,有分析指出,在设计底层编译器和软件架构的时充分考虑软硬件协同,也帮助 Habana 芯片取得了更加良好的可扩展性。根据官方公布的数字,其分布式总体性能甚至在处理器数量大于 600 的时候也能接近线性,较之 Nvidia V100 GPU,训练性能提高了接近 4 倍,这是一个非常了不起的结果。
最后,Habana 芯片不仅功能更强大,而且自 2018 年底以来一直在出货。反观 Nervana 从被收购到产品交付,不仅耗费三年的时间,产品还一再延迟。
买断竞争对手是英特尔的合乎逻辑的举措,Habana「上位」成功,并不意味着他不会有被替代的一天。毕竟,Groq 也在尽力而为,更多公司也正在将其芯片推向市场。
对于英特尔来说,只要看到了超越英伟达的机会,他就不会吝啬,关键在于自己是否选择了正确的芯片。