英伟达 GPU 主导着 AI 芯片。不过在GPU这条道路上,AI系统有朝一日将花费数亿甚至数十亿美元进行训练——并且,还有其他成本。更多的主体将被排除在所谓主流之外。而使用更多 GPU 的问题还在于,每次 GPU 数量增加一倍,成本就会增加一倍,环境足迹、碳和污染也会增加一倍。
大量初创公司表示,快速发展的人工智能领域需要新架构,GPU类似一种简单的语言阻止了人们思考更更复杂的问题,也让AI创新陷入困境。
随着智能物联网设备开始一场机器对机器的革命,更多的数据集将会流动,所有人的观点都集中在同一件事上——拥有人工智能芯片的未来。 我们仍处于人工智能的早期阶段。
作者 | NICOLE KOBIE
编译 | 吴昕
有一个关于英伟达如何从游戏和图形硬件转向主宰 AI 芯片的虚构故事,它与「猫」有关。
早在 2010 年,现任英伟达首席科学家的比尔·达利 (Bill Dally) 与斯坦福大学前同事、计算机科学家吴恩达 (Andrew Ng) 共进早餐,当时他正在与谷歌合作一个项目。
「他试图在互联网上寻找猫——他没有那样说,但他就是这样做的,」达利说。
吴恩达在 Google X 实验室从事一个项目,旨在构建一个可以自主学习的神经网络。这个神经网络在 YouTube 上观看了 1000 万个视频,学会了如何识别人脸、身体和猫—— 但要做到这一点,系统还需要数千个中央处理器。
「我说,『我敢打赌我们可以只用几个 GPU 就可以做到,』」Dally 说。GPU(图形处理单元)专门用于处理更密集的工作负载,例如 3D 渲染——这使得它们在处理AI方面比CPU更拿手。
为此,Dally 求助于现在领导英伟达深度学习研究的 Bryan Catanzaro。他做到了——仅用 12 个 GPU(就搞定了)——这证明训练吴恩达的神经网络识别猫,在处理并行计算方面,GPU 比 CPU 更快、更有效。
不过,Catanzaro希望人们知道英伟达开始AI方面的努力并非缘于那次偶然的早餐。事实上,在 2008 年加入英伟达之前,他还是伯克利分校的研究生时就一直在为 AI 开发 GPU。
「英伟达在这个市场上的地位并非偶然,」他说。
现在英伟达主导了 AI 芯片,这一切的时间和方式似乎并不重要。1993年,黄仁勋与他人创建英伟达,主要收入来源仍然是图形和游戏显卡,但就在上一个财政年度,数据中心 GPU 销售额已经攀升至 67 亿美元。2019 年,前四大云提供商 AWS、谷歌、阿里巴巴和 Azure 中 97.4%的人工智能加速器中部署了英伟达的图形处理器
Cambrian AI Research 的分析师 Karl Freund 表示,它占据了人工智能算法训练市场「近 100%」的份额。500 强超级计算机中近 70% 使用其 GPU。几乎所有 AI 里程碑都发生在英伟达的硬件上。吴恩达的 YouTube cat finder、DeepMind 的棋盘游戏冠军 AlphaGo、OpenAI 的语言预测模型 GPT-3 都在 英伟达的硬件上运行。
尽管英伟达取得了这样的成功,但Catanzaro 仍然对一些人的说法感到不满,即英伟达是盲目地从游戏领域进入人工智能领域的。
「我发誓,我读过的几乎每一个故事都是这样的:图形处理器碰巧在人工智能方面表现出色,英伟达通过向新市场出售现有芯片获得了暂时的意外之财,很快它们就会被初创公司取代。」Catanzaro 说。
「但10年来,英伟达在如何进军AI市场方面一直非常注重战略。」
十年过去了,该市场已经成熟,可以进行颠覆。越来越多的企业开始使用人工智能来理解他们收集的海量数据,而政府则将资金投入深度学习研究以保持领先地位。中美之间的竞争尤为激烈;德勤分析师 Costi Perricos 表示,人工智能将成为各国竞争的「下一种超级大国」。与此同时,深度学习模型的规模和复杂性不断增加,需要更多计算能力。
OpenAI 的 GPT-3,一个可以写出合理文本段落的深度学习系统,就是一个极端的例子,它由 1750 亿个参数组成,这些参数是构成模型的变量。它的计算成本估计为 460 万美元,此后被具有 1.6 万亿个参数的谷歌语言模型超越。需要更高效的硬件来处理更多参数和更多数据以提高准确性,同时还要防止人工智能成为更大的环境灾难——丹麦研究人员计算出,训练GPT-3所需的能量相当于驾驶70万公里的碳足迹。
我们需要更多的人工智能芯片,我们需要更好的人工智能芯片。虽然英伟达的早期工作为 GPU 制造商提供了领先优势,但挑战者正在竞相迎头赶上。
谷歌于 2015 年开始制造自己的芯片;在 2016 年收购 Annapurna Labs 后,亚马逊去年开始将 Alexa 的大脑转移到自己的 Inferentia 芯片上;百度拥有昆仑,最近估值为20亿美元;高通拥有 Cloud AI 100;IBM 正在致力于节能设计。AMD 收购 Xilinx 用于 AI 数据中心工作,Intel 在 2019 年为其 Xeon 数据中心 CPU 添加了 AI 加速;它还收购了两家初创公司,2016 年以 4.08 亿美元收购了 Nervana,2019 年以 20 亿美元收购了 Habana Labs。尚未被抢购的初创公司已经发布了自己的硬件,在过去几年中,Graphcore、SambaNova、Cerebras、Mythic AI 等公司发布或试用了 AI 芯片。
我们仍处于人工智能的早期阶段。这些猫是十年前才计算出来的,而这些初创公司大多只有几年的历史。
随着智能物联网设备开始一场机器对机器的革命,更多的数据集将会流动起来,所有人的观点都集中在同一件事上:拥有人工智能芯片的未来。
机器学习对工作量不同于其他任何计算,需要使用欠精确的数字进行大量的数学计算。传统的高性能计算(HPC)是将多个系统连接在一起,构建超级计算机来处理复杂的工作负载,如科学模拟或金融建模,需要高精度的数学,使用64位数字(如果不是更高的话)。
「数学运算大部分都很简单,但有计算量很大。」人工智能计算也需要大量的计算基础设施,但所使用的数学计算并不精确,数字是16位甚至是8位——这类似于超现实图像和80年代像素化游戏之间的区别。
人工智能芯片是通过编程框架(如谷歌TensorFlow和Facebook的PyTorch)优化以运行机器学习工作负载的处理器。在训练或运行深度学习模型时,AI 芯片不一定会完成所有工作,而是作为加速器快速处理最密集的工作负载。
例如,NVIDIA 的盒装 AI 系统 DGX A100 使用 8 个自己的 A100 「Ampere」GPU 作为加速器,但还配备了 128 核 AMD CPU。
人工智能并不新鲜,但我们之前很难使深度学习模型成为可能的计算能力,这让研究人员不得不等待硬件跟上他们的想法。
「GPU的出现打开了一扇大门。」另一家制造人工智能芯片的初创公司SambaNova的联合创始人兼首席执行官 Rodrigo Liang表示。
2012年,多伦多大学的研究人员 Alex Krizhevsky 在一年一度的 ImageNet 计算机视觉挑战赛中击败了其他竞争对手,该挑战赛让研究人员相互竞争以开发可以识别图像或其中物体的算法。Krizhevsky 首次使用由 GPU 驱动的深度学习来击败手工的编码工作。到2015年,所有在ImageNet竞赛中排名靠前的都是使用GPU。
深度学习研究爆炸式增长。英伟达的技术性能提高了20倍甚至更多,当英国芯片初创公司Graphcore的联合创始人成立公司时,投资人都不见他们。
「我们从风投那里听到的是:『什么是人工智能?』」该公司联合创始人兼首席技术官西蒙•诺尔斯(Simon Knowles)回忆起2015年去加州寻求融资的经历。
「这真的很令人惊讶。」几个月后,也就是2016年初,一切都变了。「那时,每个人都热衷于人工智能,」Knowles 说。「然而,他们不喜欢芯片。」新的芯片架构被认为是不必要的,英伟达已经覆盖了整个行业。
GPU、IPU、RPU——它们都用于处理深度学习的数据集,但名称确实反映了架构上的差异。Graphcore的Colossus MK2 IPU与独立运行的处理器是大规模并行的,这种技术被称为多指令、多数据。
但是,在 2016 年 5 月,谷歌改变了一切,他们宣布已经为人工智能应用开发了自己的芯片,Cerebras 的 Feldman 称之为「虚张声势的战略决策」。这些被称为张量处理单元 (TPU),旨在与公司的 TensorFlow 机器学习编程框架配合使用。Knowles 表示,此举向投资者发出了一个信号,即新处理器设计可能存在市场。
「突然间,所有的风投都在想:那些疯狂的英国人在哪里?」 他说。从那时起,Graphcore 已经筹集了 7.1 亿美元(5.15 亿英镑)。
英伟达的竞争对手辩称,GPU 是为图形而不是机器学习而设计的,尽管其强大的处理能力意味着它们在人工智能任务方面比 CPU 更好,但是,它们的市场主导地位持续这么长时间主要是因为精心优化和复杂的软件层。
「英伟达在隐藏GPU复杂性方面做得非常出色」Graphcore 联合创始人兼首席执行官Nigel Toon说。
「它之所以有效,是因为他们创建的软件库、框架和优化,使复杂性得以隐藏。对于英伟达来说,这是一项非常艰巨的任务。」
但是忘记GPU吧,人们认为,你可能会从头开始设计一个具有全新架构的AI芯片。有很多可供选择。Google的TPU是专用集成电路(ASIC),专为特定工作负载而设计;Cerebras制造了一个晶圆级引擎,这是一个比任何其他芯片大56倍的庞然大物;IBM和BrainChip以人脑为模型制造神经形态芯片;Mythic和Graphcore都制造了智能处理单元(IPU),尽管它们的设计有所不同。还有很多。
Catanzaro认为,许多芯片只是 AI 加速器的变体——任何能提升 AI 的硬件的名称。「我们谈论 GPU、TPU 或 IPU 或其他任何东西,但人们对这些字母过于执着,」他说。
「我们之所以称 GPU 是因为我们所做的事情的历史……但 GPU 一直是关于加速计算的,人们关心的工作负载的性质在不断变化。」
任何人都可以竞争这个领域吗?英伟达在核心基准测试 MLPerf 中占主导地位,MLPerf 是深度学习芯片的黄金标准,尽管基准测试很棘手。
Cambrian AI Research 的分析师 Karl Freund 指出,MLPerf 是一种由包括谷歌在内的学术界和行业参与者设计的基准测试工具,目前由谷歌和英伟达主导,但初创公司通常不会费心完成所有工作,因为建立一个系统的成本最好花在其他地方。
NVIDIA确实很麻烦——而且每年都要超过谷歌的TPU。「谷歌发明了 MLPerf 来展示他们的 TPU 有多好,」英伟达解决方案架构和工程负责人马克·汉密尔顿( Marc Hamilton)说。「黄仁勋说如果谷歌每次运行MLPerf基准测试时,结果都显示GPU比TPU稍微快一点,那就太好了。」
为了确保它在一个版本的基准测试中名列前茅,英伟达将一台内部超级计算机从36个DGX盒升级到惊人的96个。这需要重新安装整个系统。为了尽快完工,他们简单地切断了电缆—— Hamilton 说这是价值100万美元的设备——并把新设备运了进来。这可能有助于突出基准驱动下的疯狂行为,但它也启发了重新设计DGX:当前一代区块现在可以以20个为一组组合,而无需重新布线。
为了确保GPU在一个版本的基准测试中名列前茅,英伟达将一台内部超级计算机从 36 个 DGX 盒升级到了惊人的 96 个。这需要重新布线整个系统。为了足够快地做到这一点,他们简单地切断了电缆—— Hamilton 说这是价值约 100 万美元的套件——并运送了新设备。这可能有助于突出由基准驱动的疯狂行为,但它也激发了重新设计DGX 的:当前的区块现在可以组合为20个组,而不需要重新布线。
在基准测试和超级计算机方面,您可以随时添加更多芯片。但对于 AI 计算的另一面——边缘推理——这是一个不同的故事。
英伟达在 2020 年以 400 亿美元的价格收购了 ARM,这家英国芯片设计公司的架构为全球 95% 的智能手机提供支持,这引起了全世界的关注。
但各界反应不一。早已卸去实际职务而只担任ARM股东的ARM联合创始人Hermann Hauser,认为英伟达收购ARM是一场「灾难」,这可能会破坏 ARM 在市场上的中立性。世界各地的监管机构——欧盟、英国、中国和美国——正在密切研究该交易。
ARM 设计芯片,将知识产权授权给公司以供其使用。如果 AI 芯片制造商需要用于系统的 CPU,他们可以从 ARM 获得芯片设计许可,并按照他们的规格制造。竞争对手担心英伟达控制 ARM 可能会限制这些合作伙伴关系,尽管黄「明确」表示英伟达会尊重 ARM 的开放模式。
据报道,英国政府正在考虑对国家安全的任何影响,尽管 ARM 目前归日本软银所有,而且中国担心 ARM 归一家美国公司所有,这可能意味着其设计在现有限制下被禁止出口到列入黑名单的中国公司。
在 Cerebras,首席执行官 Andrew Feldman 意识到,芯片上的通信速度很快,但它们之间的通信速度会变慢——所以为什么不建造一个真正的大芯片,这样你的数据就永远不必离开? Cerebras Wafer Scale Engine 将 400,000 个内核塞进 46.225 平方毫米。「GPU 有正确的内核,但有错误的通信架构,」他说。
ARM是芯片的主要设计者,该芯片将在现实世界中应用深度学习——即所谓的边缘推理。这意味着该交易可能对市场形态产生巨大影响;在ARM帮助下,英伟达可以凭借其GPU和边缘优势在数据中心领域占据主导地位。
什么是边缘推理?为了训练和应用模型,英伟达强大、高性能的系统会对数据进行大量处理,但人工智能还有另一种工作量称为推理,这是一项更轻量级的任务,即使用训练过的模型来解释一些东西——比如,无人驾驶汽车理解摄像头看到的东西,一个智能手机应用程序发现你的脸部边缘,把猫耳朵贴在你的自拍照上,或者一个医学成像模型在扫描中发现癌症的迹象。由于需要巨大的计算能力,训练是在一个数据中心完成的,但推理可以在两个地方找到。
第一个也在数据中心:当你向 Alexa 或 Siri 提问时,它会被发送回亚马逊和苹果的服务器进行转录和回复。第二个推理发生在终端用户设备中,例如相机、汽车和智能手机——这被称为边缘计算。这需要较少的处理能力,但需要快速(没有人愿意等待他们的无人驾驶汽车思考后再决定是否刹车)。
英伟达目前在数据中心方面占据主导地位。它的 A100 处理用于训练的数据,而推理被虚拟化为更小的微型服务器,允许在同一硬件上同时发生 50 个或更多推理工作负载。这对于像 AWS 这样提供 AI 即服务的科技巨头很有帮助,因为多家公司可以使用相同的硬件而没有数据泄露的风险。
在边缘,英伟达有用于无人驾驶汽车的 DRIVE 和用于现场推理的 EGX,但低功耗芯片不是它的传统专长——如果你曾经使用过游戏笔记本电脑,你会发现它比Chromebook更需要频繁插电。低功耗芯片是ARM的领域,这也是英伟达斥资400亿美元收购该公司的原因。
谈到人工智能,ARM 的努力主要集中在两个领域。首先,它正在将软件框架安装到其现有的 CPU 上。对于更密集的工作负载,它开发了一种称为 Ethos 的神经处理单元 (NPU),用作加速器。ARM 的 IP 产品部总裁 Rene Haas 表示,使用 Ethos-U55 的设备应该很快就会到货,因为获得该设计许可的公司已经生产了芯片。
有了边缘人工智能,语音助手将不再需要将语音上传到 AWS 或苹果服务器进行处理,而是可以根据本地智能做出响应。
「它允许工作在靠近源头的地方完成,这在很多方面都有助于提高效率,」Haas 说,并指出将数据来回发送到云会消耗电池电量。
「我们谈论物联网已经很长时间了,但直到现在才实现这一愿景。」英伟达欧洲、中东和非洲地区副总裁戴维·霍根 (David Hogan) 表示, 「正是这种转变是我们收购 ARM 计划的核心。」
当其他人都在烤香蕉面包、狂看Netflix的时候,英伟达的解决方案架构和工程主管Marc Hamilton 在去年花了很多时间建造了一台价值4000万英镑的超级计算机,克服了疫情造成的短缺,基本上按时组装了Cambridge-1。
英伟达乐高式系统使构建变得更加容易。8个A100芯片构成了被称为DGX的计算系统的核心——这与运行你的笔记本电脑的英特尔或AMD芯片之间的关系是一样的。DGX售价19.9万美元,是一台完整的人工智能计算机,具有内存、网络和其他功能,被设计成相对即插即用。Cambridge-1由一排又一排装着20个dgx的金盒子组成,被称为「超级pod」。
Hamilton 说,Cambridge-1 将成为英国最大、最强大的人工智能超级计算机,在世界上排名第 30 位(尽管排名可能会发生变化)——但它只会在英伟达自己的集合中排名第五。Cambridge-1 使用 80 个 DGX A100 盒子建造,而最大的 Selene 使用了 560 个盒子。
英伟达在英国建造 Cambridge-1 的部分原因是收购了 ARM,因为收购意味着该公司在英国获得了员工。虽然它不是整体最快的,也不是最大的,但是,Cambridge-1 声称拥有两个第一。
Hamilton 称其为世界上第一台云原生超级计算机,因为它具有类似于 AWS 的分区功能,让公司可以使用相同的硬件而不会出现安全漏洞或数据泄露的风险。这让 Cambridge-1 有了第二个第一:这是英伟达将向外部合作伙伴开放的唯一超级计算机,让大学和医疗保健巨头 AstraZeneca、Oxford Nanopore 和 GSK 运行自己的深度学习模型。
为什么英伟达要建造自己的超级计算机?原因之一是它需要用这种工具来吸引最优秀的人。早在 2016 年,英伟达还没有超级计算机,Facebook 和谷歌正在抢购最优秀的人工智能研究人员。
「有时候人才流动并不完全取决于薪酬,」Hamilton 说。「谷歌和 Facebook 拥有数以千计的 GPU 用于运营业务,并且允许AI 研究人员使用这些 GPU。」
SambaNova Systems 的软件定义方法将数据放在首位,用过滤和减少指令代替加法和减法等整数。SambaNova 将其设计称为可重新配置的数据流,这是通过每个「Cardinal」芯片的 1.5TB 内存实现的,其中每个 DataScale SN10-8R 系统中有 8 个内存。
现在,英伟达超级计算机 Selene 是世界第五大计算机,仅次于日本一台、中国一台和美国政府拥有的两台。Hamilton 说,这意味着如果你是一名想要获得最快 AI 硬件的研究人员,你可以为中国、美国或英伟达工作。中国的目标是到 2030 年成为人工智能的全球领导者,而美国则希望保持其在技术上的领先地位;人工智能方面已经存在紧张局势,但最近两国之间的贸易战可能会将其变成一场军备竞赛。作为一家美国公司,英伟达并没有完全避免此类问题。
Catanzaro的40人实验室的研究人员开发了可在英伟达自己系统中使用的人工智能,但该实验室还充当系统架构师的「玻璃容器」,可以窥视深度学习模型在未来的工作方式。
「如果你想为未来制造芯片,希望它对未来有用,你必须有能力预测未来最重要的工作负载是什么——它们在计算上是什么样子,」Catanzaro 说。「如果你搞砸了,你就制造了错误的芯片。」芯片的设计和制造需要数年时间,这种远见是必要的。
虽然目前大多数研究人员目前都在研究 GPU,但开发模型有没有可能脱离GPU呢?「如果开发的模型不再在 GPU 上运行,或者至少不能在 GPU 上运行,会发生什么?」Dally 认为这并非不可能。
「新模型起飞之前,我们通常已经听说过它并有机会对其进行测试,确保它在我们的 GPU 上运行良好。」他说。
其他人不同意。他们认为 GPU 可能会阻碍深度学习模型发挥其全部潜力。「每个人都将他们的模型转向当今的技术,」Cerebras 的 Feldman 说。
「我们最高兴和最兴奋的事情之一是看到一群正在编写全新模型的客户。」 他说,今年 Cerebras 将展示它所谓的「GPU 不可能完成的工作」的例子——在 GPU 上根本无法完成的工作。
Graphcore 的 Toon 说,研究人员早就告诉他,今天的硬件阻碍了他们。他的搭档Knowles则引用了奥威尔的话,「这就像是一种简单的语言阻止了人们思考更复杂的问题。」
「有一些想法,例如概率机器学习,仍然被搁置,因为像 GPU 这样的今天的硬件不允许这种想法继续向前发展,」Toon 说。「竞争焦点将是英伟达能够以多快的速度发展 GPU,还是会推出新的东西来实现这一点?」
麻省理工学院(MIT)计算机科学和人工智能实验室(Computer Science and Artificial Intelligence Lab)的研究员尼尔·汤普森(Neil Thompson)在人工智能会议上注意到一个趋势,研究人员暗示,计算能力的限制阻碍了他们的模型,限制了他们的选择和数据集,迫使一些人在他们的工作中留下错误,因为他们负担不起重新运行模型来解决问题。
「这真的很普遍,如果我们要像迄今为止一样实践它,这对于深度学习的未来来说是一个非常大的问题,」他说。
Thompson 和同事分析了 1,058 篇 AI 论文,发现机器学习的计算需求远远超过硬件改进或模型训练效率。在这条道路上,系统有朝一日将花费数亿甚至数十亿美元来训练——并且还有其他成本。
「使用更多 GPU 的问题在于,每次 GPU 数量增加一倍,成本就会增加一倍,环境足迹、碳和污染也会增加一倍,」Thompson 说。
他认为,仅靠硬件解决方案——无论是来自英伟达还是挑战者——都不足以阻止人工智能创新陷入困境。相反,我们需要构建更高效的模型并更好地利用我们已有的模型。诸如稀疏性之类的想法——忽略数据集中的零以节省计算——可以提供帮助,因为对数据更加有条理,只将其与相关参数进行比较。另一个想法是将我们从模型中学到的东西提炼成更轻量级的方程,只运行模型的相关部分而不是大量通用部分。
如果没有这样的努力,我们将需要更大的数据中心。但人工智能不应该仅限于那些买得起超级计算机的人。Thompson 说,在从事高端深度学习工作的大学中,「计算机能力较弱的大学所占比例已经越来越小」。
「仍然有相当多的人可以玩这个游戏,但是随着计算负担的增加,玩家的数量越来越少。我们已经到了有些人被排除在外的地步。」
可以削减成本,这可能是初创公司赢得客户对抗现有企业的一种方式。AWS 去年将 Habana Labs 的芯片添加到其云中,称这位英特尔拥有的以色列设计师的运行成本降低了 40%。
「为了让 AI 惠及所有人而不仅仅是富人,你确实需要提高性价比。」Habana Labs 首席商务官 Eitan Medina 表示。
人工智能已经存在偏见问题,而对硬件的不平等访问加剧了这一问题。「这意味着我们只会看到硬币的一面,」英伟达新兴领域负责人 Kate Kallot 说。
「如果你不考虑世界上的大部分人口……我们将如何解决世界各地的挑战?」 她指出联合国的可持续发展目标:许多人工智能研究人员正在将他们的工作转向解决贫困和气候危机等挑战,但这些问题将在很大程度上影响新兴市场。
除此之外,还有其他挑战。在大流行期间,处理器的制造一直受到限制,而去年中美之间的贸易冲突让人们担心,全球芯片工厂主要在亚洲。欧盟(EU)最近承诺,到2030年,将生产全球五分之一的高端芯片。芯片设计师大多外包制造——英伟达的芯片是由台湾台积电(TSMC)制造的——不过,英特尔有自己的代工厂。今年3月,英特尔宣布计划首次在美国开设两家新工厂,为外部设计师生产芯片,这或许会让美国在制造方面拥有更多控制权。
随着这些障碍被克服,芯片继续进化,人工智能将扩展到触摸一切,就像wifi支持和应用程序被添加到从烤面包机到冰箱的物体上的连接浪潮一样。但在未来,智能不仅仅意味着联网,还意味着嵌入人工智能。
「它将无处不在,」ARM的哈斯说。「在未来几年内,它将无处不在地出现在每一个计算应用程序中。」
参考链接
https://www.wired.co.uk/article/nvidia-ai-chips