Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

「anandtech」编译自

这家用一整块硅片做AI芯片的公司成功了?

Hot Chips 2019的亮点之一是Cerebras Wafer Scale Engine展示的一个与晶圆一样大的AI处理器芯片。在这个处理器中,包含1.2万亿个晶体管,而硅面积超过46225平方毫米。这是通过跨掩模版图案(cross-reticle patterning)中的突破性技术实现的。由于设计中内置了冗余级别,因此每次都能确保100%的良率。第一个WSE系统CS-1在Supercomputing 2019上展出。

CS1是一个完全集成的15U机箱,需要20 kW的功率才能通过12x 4 kW电源推入芯片(内置冗余)。为了便于访问,该芯片垂直安装,这在现代计算机世界中是很奇怪的。大多数机箱都是为CS-1定制的,包括工具和大量的商业3D打印。安德鲁当时还表示,虽然CS-1没有最低订购量,但是每架CS-1的成本都为“几百万美金”。

匹兹堡超级计算中心(PSC)今天发布的消息使这一数字降低到了大约200万美元。他们通过美国国家科学基金会(NSF)向PSC提供的500万美元拨款,将建造一个新的AI超级计算机,称为Neocortex。Neocortex的核心将是与Cerebras和Hewlett Packard Enterprise合作构建的硬件。

具体来说,Neocortex的核心将有两台CS-1机器。CS-1通过TensorFlow和pyTorch支持异步模型,该软件平台能够针对CS-1晶圆缩放引擎上的可用区域优化工作负载的大小。
这对CS-1机器将与‘extreme’共享内存HPE Superdome Flex服务器配合使用,该服务器包含32个Xeon CPU,24 TB DDR4、205 TB存储和1.2 Tbps的网络接口。Neocortex有望用于帮助AI研究人员训练他们的模型,涵盖医疗保健,疾病,发电,运输以及当日紧迫问题等领域。

该机器将在2020年末安装。PSC表示,  美国研究人员将免费使用Neocortex 。

去年,当我们与Cerebras交谈时,该公司表示他们已经有“很强的两位数”订单。当按下时,我设法将其从“ 12”提高到几十。当时为Argonne国家实验室订购了许多机器,我怀疑其他人现在正在投资。

有趣的是,在今年的Hot Chips 2020上,该公司将公开其第二代Wafer Scale Engine。推测一下,我认为这与WSE1宣布时相比还差一点,但是该公司似乎对其技术很感兴趣。

诸如Cerebras WSE之类的巨型AI芯片令人眼花缭乱,并且可以改变AI模型,采用不同的组织内存,计算和网络方式的新型AI芯片可能会重塑领先企业设计和部署AI算法的方式。供应商Cerebras Systems已开始测试 与iPad大小相同的 单个 芯片,该芯片的 数据传输速度比现有AI芯片快数千倍。这可能为开发人员提供尝试新型AI算法的机会。


风险投资公司Engineering Capital的首席工程师Ashmeet Sidana说:“这是一个巨大的市场机会,我看到正在对计算机体系结构进行全面的重新思考。”

Sidana指出,早就应该进行重新思考了。从历史上看,该行业一直专注于在传统计算机体系结构之上扩展简单的机器学习工作负载,而不是考虑构建AI特定计算机的最合适方法。

但是,随着Cerebras和Graphcore等初创企业以及像Intel这样的老牌企业(通过收购Habana Labs)竞相建造新一代的AI芯片,情况正在迅速改变。

在短期内,这些进步将对拥有大量AI的公司产生最大的影响。从长远来看,各种规模的企业将不得不重新考虑其IT,数据工程和数据科学流程,以保持领先地位。

解决传统AI硬件中的带宽瓶颈

Cerebras在推出晶圆级引擎(Wafer Scale Engine,WSE)芯片时震惊了整个行业:WSE芯片的尺寸相当于整个硅晶圆的大小,比最大的GPU大56倍,拥有的内核多78倍。但是其真正的优势在于它可以以多快的速度移动数据-快10,000倍。

研究公司Omdia的高级首席分析师兼处理器副总监Tom Hackenberg表示:“我在此解决方案中发现的最大创新就是将如此高的带宽集成到内存中。”

他说:“内存访问和配置是许多新创公司正在解决的技术之一,因为传统的大规模内存地址没有针对神经网络算法进行优化。”

传统的AI硬件架构的一个主要瓶颈在于在不同的处理内核,内存和其他芯片上的处理内核之间进行转换所花费的时间。因此,需要对AI算法进行优化,以最大程度地减少内核之间通信的需求。无论算法是在多个CPU上还是在多个GPU上运行,这都适用。

WSE上的内核比传统芯片上的互连更加紧密。这样可以加快内核之间以及内核与板载RAM(称为SRAM)之间的通信速度。而且,在与处理核心相同的基板上存储着更多的SRAM。WSE具有32 GB的SRAM,而传统芯片只有几十兆的SRAM。密集互连允许数据在内存和处理器之间以每秒9 PB的速度移动,在内核之间以每秒100 PB的速度移动。

在典型的计算机中,计算的中间步骤存储在主板上的DRAM中,该DRAM比SRAM慢得多,但比外部存储快。

Cerebras首席执行官Andrew Feldman说:“ DRAM就像杂货店的故事,而SRAM就像冰箱。” 他说,如果您想快速得到一些东西,最好把它放在冰箱里。杂货店有多大都没关系,因为如果您必须去杂货店买啤酒,就会错过一些足球比赛。

相比之下,最先进的GPU(例如Tesla V100)具有每秒900 GB的GPU内存带宽。

其他AI芯片提供商也正在缓解带宽瓶颈。例如, Graphcore的智能处理单元具有 300 MB的SRAM和每秒45 TB的内存带宽。

重新思考内存和计算的组织方式的工作最终可以解决传统系统的某些内存访问障碍。Hackenberg说,这还可以大大降低功率需求。这将吸引已经开始涉足AI加速器协处理器的云服务 超标量 -阿里巴巴,Alphabet,亚马逊微软都是设计自己的 ASIC 解决方案的公司。

像所有新的芯片供应商一样,Cerebras必须投资使其大型AI芯片与TensorFlow和PyTorch等现有的AI开发框架协同工作。但是,关于WSE和类似的大型AI芯片在AI开发工作流程中如何发挥作用尚无定论。

Omdia的Hackenberg警告说:“这不仅需要每瓦性能,而且还需要大量的生态系统支持,服务和定价激励措施,才能抢夺AMD,英特尔,Nvidia或Xilinx等领导者的市场份额。”

Hackenberg说,这个市场上最大的供应商不仅提供规模经济,还提供多年的生态系统支持。为了从Beta测试过渡到商业可行性,这一领域的初创企业将需要提供大量激励措施,以促使买家放弃其传统供应商-包括明显的性能提升,成本节省或两者兼而有之。

Hackenberg说:“长期关系和生态系统支持经常被初创公司低估。”

其他人则对巨型AI芯片和更新的架构证明其价值的潜力充满希望。

IT咨询公司Globant的技术副总裁Agustin Huerta表示,芯片提供商正在使公司更容易使用更大的AI芯片。

Globant的AI和流程自动化工作室负责人Huerta说:“以我个人的经验,与传统的CPU供应商不同,芯片供应商也愿意比以往更接近企业,并提供大量的投入。”

他说,芯片提供商正在直接与最终用户合作,以针对不同的用例和架构优化其芯片。该支持使AI团队不必进行这项工作。这也意味着AI团队可以编写一次算法,然后针对各种不同的目标生产环境重新编译该算法。

也就是说,Huerta希望更大的芯片将主要用于以AI应用程序为业务核心的企业或提供AI开发服务的公司。巨型AI芯片将使他们能够投入更多时间来微调模型或在其他培训无法返回预期结果的情况下确定案例。但是,对于其他许多公司而言,这些芯片将不再适用-至少在不久的将来不会。

他说:“大多数企业,如银行或零售商,几乎都不会使用这些解决方案,因为太多的计算能力使他们无法真正利用它。” “对于更主流的企业使用而言,更大的芯片可能会浪费资源。”

确实,哈肯伯格警告说,在现阶段,只有更大的筹码才能吸引人们的观点。通过采用更小的购买和运行成本更低的芯片,许多企业将看到更高的投资回报率。实际上,市场趋势是朝着较小的芯片发展。他说:“ Smaller倾向于提高每瓦性能,并提高生产良率。”

传统的处理器供应商正在尝试开发成本更低的AI硬件,例如小芯片(可集成到更大的异构处理器中以增加带宽并运行专门算法的模块化芯片)。

Huerta认为,这些较小的低功耗芯片可以使AI在无法可靠连接到网络的设备上使用AI,例如机器人手臂,交付机器人和远程设备自动化。

巨型AI芯片具有不同的功能。Cerebras的Feldman认为,更大的芯片有望开辟AI研究的新途径。

他说:“当您拥有允许不同功能的新硬件时,可以编写不同的模型。” 到目前为止,数据科学家仅研究了针对GPU特性的一部分算法。他们正在编写相同类型的算法以更快地运行。

但是,Feldman说,他希望研究人员能够探索新的模型,这些模型可能包括更大的网络,更深的网络或极为稀疏的网络。

相反,Engineering Capital的Sidana表示,首席信息官应着重于基础知识,首先要建立能够将新模型持续投入生产的机器学习管道。对于许多CIO来说,生产数量将是个位数,而AI强国将生产数千个模型。

不管是哪种情况,负责监督AI计划的CIO都需要重新评估他们购买硬件和服务的方式,Capital Engineering的Huerta说。

他说:“许多公司的失误之一就是购买了不足的硬件来满足AI领域的当前需求。” 许多IT部门依靠自己对传统服务器需求的了解,并根据过去使用的相同因素做出投资决策,而没有意识到部署AI的特定基础架构要求。

他说,CIO必须确保其团队准确地预测其AI需求,以避免过度使用从未真正使用过的功能。该分析还可以帮助您确定AI基础设施不足的地方,例如,在运行关键任务应用程序时会导致长时间的延迟。

根据Huerta的经验,公司面临的主要挑战是确定哪种硬件或云解决方案适合其特定的计算需求。在许多情况下,与购买和运行自己的服务器相比,从云提供商那里租用AI处理功能可能给公司带来更大的投资回报率。他说,关键是要从软件开发,云和硬件的角度与合作伙伴合作,以全面了解需求和成本。

Sidana说,成功的AI也需要保持警惕。AI团队在失去准确性时必须能够重新训练模型。传统企业可能要花费数月的时间来重新训练模型,而最老练的公司则每天或每分钟都这样做。

Sidana说:“大多数企业仍需改进几个数量级。”

Sidana说,CIO也不应低估保持高性能AI系统正常运行所需的数据工程。“随着我们建造更快的设备并且公司收集更多的数据,大规模管理,操纵和交付AI计算的能力经常被忽视。”
半导体行业观察
半导体行业观察

最有深度的半导体新媒体,实时、专业、原创、深度,30万半导体精英关注!专注观察全球半导体最新资讯、技术前沿、发展趋势。

产业AI芯片
1
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
Graphcore拟未机构

Graphcore拟未为人工智能打造计算机系统,由先进的智能处理器(IPU)提供动力,旨在满足人工智能独特的计算要求。公司于2016年成立于英国布里斯托,目前海外办公室和客户遍布欧洲、亚洲和美洲国家及地区。拟未的计算系统广泛应用在各行各业的人工智能应用中,包括制药、金融服务、汽车行业和消费互联网服务。

http://www.graphcore.cn/
相关技术
推荐文章
暂无评论
暂无评论~