Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Timothy Prickett Morgan作者TheNextPlatform来源张玺编译

性价比高出英特尔45%,亚马逊的云服务器芯片如何做到?

到目前为止,亚马逊和其他大型云运营商几乎全部使用英特尔的 Xeon 芯片。虽然在服务器芯片市场,英特尔市场占有率非常高,但亚马逊正使用折扣策略来赢得客户。亚马逊表示,基于 Graviton 的云服务比英特尔处理器上运行的现有产品「成本低得多」,具体在某些处理任务上,能够减少 45% 的成本。


智能网卡与服务器处理器有何区别?如果你指的是亚马逊云服务(Amazon Web Services),两者大概相差三年。

在西雅图总部,公有云市场大佬亚马逊 re:Invent 2018 大会现场,亚马逊推出了基于 ARM 架构的 Graviton 服务器处理器。除去已经在 AWS 运行的 Intel Xeon 和 AMD Epyc 处理器,Annapurna Labs 表示 Graviton 还支持 EC2 虚拟计算服务。

2015 年,亚马逊以 3.5 亿美元收购 Annapurna Labs。早些时候,亚马逊从 Calxeda 挖来了几名员工,Calxeda 是一家致力于开发基于 ARM 架构服务器系统的初创公司。

过去一年的 ARM 服务器市场波谲云诡:先是高通宣布放弃 Centriq 2400;Ampere(获得私募基金 The Carlyle Group 投资)抢先收购 X-Gene,让 Applied Micro 终于获得喘息之机。

如此看来,AWS 创造了自己的服务器芯片,放弃使用目前 ARM 架构服务器市场最领先的 Marvell(前身为 Cavium)ThunderX2 芯片,就显得尤为重要。然而,这并不代表 Marvell 或者 Ampere──如果未来实现了超强浮点并行处理,拥有 A64FX 处理器(48 核且具备可伸缩矢量扩展)的富士通也将纵横 ARM 市场──ARM 芯片未来在 AWS 公有云市场一定毫无作为。

我们认为 AWS 已经在 Annapurna Labs 中研发「Alpine」系列双核及四核 ARM 芯片,为自己的服务器集群创造 SmartNIC。SmartNIC 是服务器集群不可或缺的。除了 EC2 上的 Xeon、 Epyc 和现在的 Graviton 处理器的操作系统和应用之外,服务器集几乎能卸载所有功能,使得公有云计算核心可以极大程度上运行应用。

虽然之前说过,但我们还是想再次强调:大部分 Hyperscaler 和云构建仍依赖 SmartNIC 的发展。由于 InfiniBand 网络具备搭配智能网卡 GeniusNIC(Mellanox Technology 的命名虽然有些玩笑意味,但能看得出企图心)的卸载模型,HPC 中心能够进一步提升价值。最终,Mellanox Technology 的落后也是由于相同的原因:Hyperscaler 和 HPC 中心经常采用卸载计算。核心计算十分昂贵,相对而言,卸载计算就不一样了。

2016 年 1 月,亚马逊与 Annapurna Labs 发布了 32 位 Armv7 与 64 位 Armv8 设计,两者已达到「企业级性能与特征」,如支持 DDR4 内存、2MB 二级缓存。自那以后,再没有透露好更多关于「Alpine」系列芯片的消息。

Arm Holdings 生产的基于 Cortex-A15 核心的双核及四核 32 位元件,其主频分别达到 1.4 GHz 与 1.7 GHz;基于 Cortex-A57 设计的四核元件,主频达到 1.7 GHz。上述 Arm Cortex 核心支持超标量通道及乱序执行,但并不具备超线程。

这些设备的进给量与速度并没有任何特别之处,由于 Amazon 并未公布任何细节,我们不展开讨论具体架构。但我们推测有两点非常不可思议:亚马逊如何生产这些廉价设备;亚马逊如何运用服务器卸载计算以使得服务器、网络及存储更加高效。

主流厂商的策略确定无疑:Mellanox 主推 Bluefield 多核 ARM 处理器,微软在 Azure 公有云的服务器上使用 FPGA 作为网络加速及计算引擎,Netronome 主推 Agilio 网络适配器。

AWS 全球基础设施及客户支持业务副总裁 Peter DeSantis 在 re:Invent 2018 大会介绍了 Graviton Arm 服务器的工艺。

虽然我们不清楚 Graviton 芯片,Graviton 看起来是一个更加实用的处理器,其与 Intel Skylake Xeon-D-2100 v2 类似,搭配 8 到 18 个核心,主频在 1.6 GHz 与 2.3 GHz 之间(通常核心数越多,时钟频率越低)。如果打开 AWS 网站,大家会发现一句申明「Gravitons 基于 64 位 Neoverse 核心」,这几乎能断定 Cosmos 核心是定制的。

Cosmos 包含 ARM Cortex-A72 与 Cortex-A75 设计的微调版本,意图达到 16 纳米芯片工艺水平,其代工厂很可能是台湾半导体制造公司(Taiwan Semiconductor Manufacturing Corp)。大家回想下,Arm 发布的 Neoverse 正是 10 月曾发布的数据中心 Arm 芯片的翻版,其每年性能提高幅度达到 30%,并将在 2021 年前完成 7 纳米到 5 纳米制造工艺的升级。

所有 AWS 的公开信息表示,通过 EC2 A1 让业界熟悉的 Graviton 处理器,最多支持 16 个虚拟 CPU、32GB 主内存,服务器适配器的网络带宽达到 10 Gb/秒,弹性块存储(EBS)带宽达到 3.5 Gb/秒。当我们想了解更多技术细节时,AWS 并未确认目前使用哪个 Cosmos 核心,亦未确认 Graviton 具备 16 个核心且无法通过同步多线程(SMT)为各个核心提供虚拟多线程。

(SMT 支持通常由 ARM 许可证持有用户添加,尚未成为 ARM 基本内核许可证部分。随着 2019 年「Ares」内核到期,情况可能会改变。)AWS 向 The Next Platform 确认,EC2 A1 具备 Graviton 芯片,主频达 2.3 GHz。单就整数计算而言,Graviton 已能与 Xeon-D 抗衡,或许达到了 Xeon SP 的下限水平。

不同 A1 的进给量和速度如下:

我们推断内存及内存带宽不多,可能只有一个内存控制器和两个内存通道,最高容量 512 GB,搭配十分昂贵的 128 GB 记忆棒,即便使用便宜的 8 GB 记忆棒也可轻松达到 32GB。Annapurna Labs 可能在芯片上放置了大量内存你控制器,我们认为其并不支持 SMT,推断芯片上具备 16 个内核。一个内存控制器搭配八个核心是很好的平衡选择,但如果大家想让计算能力和内存带宽恢复平衡,四个内存控制器的效果甚至会更好。(考虑到 AWS 并未大肆炫耀,该项可能仍未实现。)

A1 采用 Amazon Linux 2 系统(红帽 Linux 与亚马逊 CentOS 克隆版结合的自研升级系统),亦支持 RHEL 和 Ubuntu 服务器系统,未来将支持其他操作系统──如果以后 AWS Arm 服务器芯片支持 Windows Server,应该十分有趣。

基于 Arm 的 A1 EC2 目前在美国东部、西部及欧洲(爱尔兰)等区域可用,订购类型一般涵盖 On-Demand、 Reserved、Spot、Dedicated 及 Dedicated Host。AWS 特别提醒,上述 A1 实际应用于内存带宽不做特别限制的横向扩展工作负载,如 Web 服务器、开发环境、缓存服务器或容器化微服务等轻量化及无状态服务。AWS 表示与 EC2 上同等性能的 32 位服务相比,这些服务成本能降低到 45%。不过,AWS 并未说明具体的比较对象。

划重点了。

我们来看看 Arm 服务器之于基础设备的野心有多大。毫无疑问,A1 会有无数的衍生版本。对于支持极有可能成为下一代智能网卡处理器的发展来说,这是件好事。算上基于 Arm 的 A1,AWS 还在 EC2 主题上研发了一些其它基础设施变体。新一代 C5 服务在这些变体之间的以太网速率达到每秒 100Gb,适用于那些带宽依赖的 HPC 仿真建模、机器学习训练及密集数据分析工作。

如同 C5 和 C5d,C5n 基于双插槽服务器节点,搭配定制 Skylake Xeon SP 8000 Platinum 系列处理器,各芯片可能具备 18 个内核且主频达到 3 GHz。

除了额外带宽之外,C5n 的数据队列是 C5 和 C5d 的数倍至多──32 比 8 的弹性网络接口(Elastic Network Interface,应用于 Annapurna 处理器,布置在网卡附近,使其更加智能──帮助网络适配器中数据更快的在内核中流转。无论是单个可用范围或区域内跨越多个可用范围,带宽在同一区域内都可用)。

C5n 可用于 EC2 及其他服务器集群,与 S3 对象存储或 Elastic MapReduce、Relational Database Service 及 ElastiCache 等服务连接。C5n 与 A1 的可用区域一致,业务范围还附加美国政府私有云 GovCloud。

最后,去年 10 月 AWS 推出的 P3 GPU 加速服务使得以太网达到每秒 100 Gb,服务器链路上限达到每秒 25 Gb。具有更快网络的 P3dn 将于下周推出,其配备 32 GB HBM2 内存的 Volta Tesla V100 GPU 加速器,而初代 P3 配备 16 GB HBM2 内存的初代 Volta 加速器。上述服务基于一对定制 24 核 Xeon SP 处理器,机箱中最多配备 8 个 GPU。

作为最大云计算提供商的 AWS 提供了 ARM,这对 ARM 来说是一次胜利。

在过去五年里,Calxeda、Applied Micro、英伟达、三星、博通、、Cavium、Marvell、AMD 和高通等多家先驱投身到 Arm 服务器芯片的研发。但发展到今日,这些想去几乎全军覆没。Moor Insight & Strategy 的行业分析师帕特里克·莫尔海德(Patrick Moorhead)上周五在给 CNBC 的邮件中写道:「AWS 接受 ARM 为 ARM 带来了可信度,将 ARM 的业务扩展到更多的云参与者和工作负载。」

尽管亚马逊的大部分营收仍来自商品销售,但 AWS 已成为该公司财务健康的关键。第三季度,亚马逊超过一半的营业利润来自 AWS亚马逊在线商店的收入本季度同比增长 10%,而 AWS 服务的营收增长了 46%。AWS 现在有超过 125 种服务可供客户使用,包括核心的 EC2 计算服务。

在接下来的几年里,AWS 可以发布基于更强大 ARM 芯片的新实例。现有实例使用 ARM 于 2015 年推出的 Cortex-A72 系统。但更重要的是,其他云计算提供商将可能同样开始使用 ARM 技术发布实例。

原文链接:

https://www.nextplatform.com/2018/11/27/aws-tests-the-waters-with-homegrown-arm-servers/?from=timeline&isappinstalled=0

产业亚马逊芯片AWS
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
Qualcomm机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

http://www.qualcomm.com/
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

MapReduce技术

MapReduce,一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是其主要思想,皆从函数式编程语言借用。它还借用了矢量编程语言的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

弹性网络技术

在统计学中,特别是在拟合线性或逻辑回归模型时,弹性网络是一个正则回归方法,线性组合了套索和脊线方法的L1和L2惩罚。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

暂无评论
暂无评论~