Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

打破生态孤岛,国产异构原生AI算力工具问世,来自中科加禾

「通过系统优化软件的帮助,开发的门槛会被降低,各种不同硬件会得到统一,让技术生态得到发展。这对于当前智能生态的进步有重要的意义,」中国工程院院士、中科院计算所学术委员会主任、CCF 理事长孙凝晖在发布会上致辞表示。「除了智能芯片、AI 行业应用以外,我们需要系统软件优化的一方参与进来共同努力,这样才能把国内生态做得更好。」

图片

                            孙凝晖院士在发布会上

面对算力「卡脖子」问题,我们终于迎来了系统级的解决方案。

7 月 20 日,AI 基础设施创业公司中科加禾正式发布了第一代异构原生 AI 算力工具。

面向当前国产算力大规模落地的趋势,中科加禾提出的方法可以让不同种类的芯片大规模并行,同时发挥最大效率,并让算力的使用者无需关注不同芯片生态,做到直接拿来就用。

中科加禾创始人兼 CEO 崔慧敏发布并介绍,「加禾异构原生 AI 算力工具」已经在国产算力的 AI 基础设施上发挥一定作用。它兼容多种国产 AI 芯片,为屏蔽芯片差异提供了高性能的统一接口。在异构原生平台的基础上,AI 算力集群在大模型推理上的时延可以降低 3-74 倍,吞吐率提升 1.4-2.1 倍,能效比提升 1.46 倍,可支持 340B 参数量的稠密大模型,以及 640B 的 MoE 大模型

与此同时,中科加禾已实现对超过 10 家包括芯片、集成商、服务商等客户提供高性能推理支持,其架构支持国内外主流大模型,并可以进行多样化并行推理。

发布会现场宣布签约及达成合作的算力提供、应用方伙伴包括:AMD、宝德、华为、杭州人工智能计算中心、开放传神、摩尔线程、青云科技、Rise VAST、燧原科技、无问芯穹、云西算力、新华三等(按拼音首字母顺序排序)。

图片

                              中科加禾创始人、CEO 崔慧敏在发布会上

异构原生 AI 算力,目标实现「三零一高」

中科加禾提出的方案,目标是让 AI 大模型应用在不同芯片上实现零成本迁移,零损耗使用,零延迟部署的高效使用

这套软件工具包含异构原生大模型推理引擎「SigInfer」、异构原生微调引擎「SigFT」以及算子自动生成、转译工具「SigTrans」三款产品。

其中,昨天发布的 SigInfer 是一款跨平台、高性能的异构原生推理引擎,不但支持服务器级的 AI 加速卡,还支持消费级 GPU。因此,它既可以部署于数据中心,也可以为各种端侧设备实现加速。

图片

作为异构计算的技术底座,通过 SigInfer 接入的不同 AI 算力,可以做到调用接口统一,平滑迁移业务应用。SigInfer 会在调用多种不同算力的同时进行多层次深度优化,充分挖掘芯片算力的潜能。

它具备现代大模型推理引擎所具备的各种特征,如支持 API Serving、请求调度、Batch 管理、KV Cache 优化、张量并行、流水线并行、专家并行、甚至多机流水并行等能力。

中科加禾表示,SigInfer 已经支持了业界大部分的大模型结构。

图片

目前,SigInfer 已经可以实现完备的推理引擎能力。其支持的异构加速卡集群可以灵活调度英伟达 AI 加速卡 + 国产 AI 加速卡进行混合推理,最高可扩展至万亿级的大模型。

使用 SigInfer 帮助 AI 芯片部署可以在业务访问需求提升时,让大模型服务保持较高的吞吐率和较低的时延,对于生成式 AI 的大规模应用来说,这些指标至关重要。

在同样使用英伟达显卡的情况下,我们可以看到 SigInfer 能提供较明显的加速效果:

图片

再进一步,使用国产芯片完成同类任务时,SigInfer 可以同样提升并行计算时 AI 加速卡的吞吐率,同时大幅降低输出 Token 的延迟。

异构原生 AI 算力工具可以根据大模型任务处理的不同阶段、算子特征、优化目标自适应优化等方式调整 AI 加速器的计算频率,从而实现高效率。中科加禾给我们算了一笔账,数据中心运营的过程中,使用 A800 加 SigInfer,相比 vllm 能效比可以提升 46%。

除了对云基础设施实施优化以外,中科加禾还展示了对于端侧推理的性能优化。SigInfer 可以加速基于英特尔、高通、AMD 等大厂的芯片设备,相比业界主流部署方案,SigInfer 在端侧推理的效率最高可以提升 5 倍。

在异构计算和效率提升的背后,是一系列前沿技术和工程的应用与优化。

为了提升并行计算的效率,中科加禾引入了一系列优化。例如深入解码阶段的访存优化,让 KV Cache 可以得到寄存器级别的复用,相比从 L2 加载,延迟和带宽都得到了优化。

同时,为了缓解并行度的减少,中科加禾的研究人员在数据的 sequence 维度上也进行了并行划分。结合 KV Cache 的复用优化,既节约了访存,又增加了并行度,让整个注意力机制的核心计算提高了执行效率。

中科加禾也探索了异构算力的高性能算子生成方法。通过与算力厂商合作,中科加禾把 cutlass 迁移到了国产芯片架构上,大幅提升了矩阵乘法的运行效率。在这其中,该公司通过结合编译技术的优化实现了超过 20% 的性能提升。

在一系列技术的加持下,加禾异构原生 AI 算力工具实现了卓越的能效优化。

从编译技术出发:中科加禾的技术路线

与以往一些 AI 算力基础设施公司提供的能力不同,中科加禾提供的异构计算与加速,是围绕编译技术展开

对于计算机而言,编译层所做的工作是「翻译」,它负责把人类编写的高级编程语言内容转化成机器理解并能执行的语言。

图片

在这个过程中,编译还需要进行优化,即提高生成出来的机器代码的运行效率。对于芯片性能而言,编译发挥作用的范围很大,但时常被人忽略。

在目前业内最流行的英伟达芯片上,CUDA 计算平台发挥了重要作用。它包含编程语言、编译器、各种高性能加速库及 AI 框架,可以在计算机执行任务时充当分配者的角色,充分利用不同硬件的算力资源,让复杂的代码模型跑得更快。可以说如今的 AI 生态,很大程度上就是建立在 CUDA 之上的。

对于国产算力而言,为了实现大规模应用,就需要构建其需要的生态和能力。

图片

在生成式 AI 时代,人们对于算力的需求推动了芯片技术的发展,然而新的挑战也已显现:

  • 从芯片公司的角度来看,生态也呈现多元碎片化发展,这会带来开发成本增加以及落地效率和兼容性等问题。

  • 从行业发展的角度来看,AI 技术正快速发展,其覆盖越来越多的场景,意味着更多种类的算力将会参与其中,这就进一步推动了异构计算的需求。

因此,业界迫切需要一套能够支持多种国产芯片的高效工具链。如果能够出现一套通用化、低成本、高性能的基础软件,并可以帮助生态伙伴快速移植基于英伟达生态开发的应用程序,就可以充分发挥出国产芯片的潜力,带动技术研发的步伐,从而逐步构建立起 AI 算力生态的正循环。

这就是中科加禾一直在做的事。

中科加禾提供的基础软件平台层,定位于算子、编译、框架层几个位置,在硬件和软件之间架设了一座桥梁。其提供的异构原生 AI 算力工具可以帮助用户平稳迁移 AI 模型和芯片架构,这就给 AI 应用带来了极大的便利性。

图片

这些层面的能力都涉及了编译技术。AI 编译覆盖的范围既包含图层,也包含算子层,相对传统编译器在语义转换上的跨度更大。例如,AI 编译器一般要考虑计算图划分、子图融合、并行计算、数据分块等。这些都是较难解决的问题。

在这方面,中科加禾完成了大量研究,如在 Tensor 表达式层级做全局数据流分析,构建精确的计算图和数据依赖图,进而打破算子边界进行算子融合,取得了很好的效果。在一些网络上,其方法取得了相对于业界先进水平多达 3.7 倍的加速比。相关工作成果发表在今年的计算机领域顶级会议上。

构建端到端的算力使能解决方案,助力繁荣国产 AI 生态

中科加禾成立于 2023 年 7 月,团队主要来自于中科院计算所。创始人崔慧敏毕业于清华大学计算机系,是中科院计算所编译团队负责人。该公司的核心团队具备超过 20 年的编译器研发经验,曾作为核心成员主持或参与过多款国产芯片的编译器研发工作。

自成立以来,该公司聚焦于芯片编译与优化技术,致力于提供通用化、低成本、高性能的算力资源,以「聚芯片之合力,筑国产之生态」为使命。目前,中科加禾已收获了多轮共计近亿元融资。

图片

中科加禾正在围绕三条路线打造系列产品,包括支持异构算力的 AI 大模型推理引擎、大模型微调框架、以及 AI 编译工具套件。它们既可以帮助算力使用方快速使用多元化的 AI 算力,也可以帮助算力供应方完善软件生态以及提升竞争力,补齐了国产 AI 算力生态的一块重要拼图。

图片

更重要的是,中科加禾希望能成为一个「沟通」的桥梁,连接数量庞大的算力使用方和算力提供方,使双方能愉快的双向奔赴,从而推动异构原生 AI 算力的大规模应用和国产 AI 生态的蓬勃发展贡献力量。

入门中科加禾
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

推理引擎技术

推理机是实施问题求解的核心执行机构,常见于专家系统。它是对知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到动态库的适当空间中去。

AMD机构

超威半导体(中国)有限公司专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、GPU、主板芯片组、电视卡芯片等),以及提供闪存和低功率处理器解决方案,公司成立于1969年。AMD致力为技术用户——从企业、政府机构到个人消费者——提供基于标准的、以客户为中心的解决方案。

https://www.amd.com/zh-hans
推荐文章
暂无评论
暂无评论~