「通过系统优化软件的帮助,开发的门槛会被降低,各种不同硬件会得到统一,让技术生态得到发展。这对于当前智能生态的进步有重要的意义,」中国工程院院士、中科院计算所学术委员会主任、CCF 理事长孙凝晖在发布会上致辞表示。「除了智能芯片、AI 行业应用以外,我们需要系统软件优化的一方参与进来共同努力,这样才能把国内生态做得更好。」
孙凝晖院士在发布会上
面对算力「卡脖子」问题,我们终于迎来了系统级的解决方案。
7 月 20 日,AI 基础设施创业公司中科加禾正式发布了第一代异构原生 AI 算力工具。
面向当前国产算力大规模落地的趋势,中科加禾提出的方法可以让不同种类的芯片大规模并行,同时发挥最大效率,并让算力的使用者无需关注不同芯片生态,做到直接拿来就用。
中科加禾创始人兼 CEO 崔慧敏发布并介绍,「加禾异构原生 AI 算力工具」已经在国产算力的 AI 基础设施上发挥一定作用。它兼容多种国产 AI 芯片,为屏蔽芯片差异提供了高性能的统一接口。在异构原生平台的基础上,AI 算力集群在大模型推理上的时延可以降低 3-74 倍,吞吐率提升 1.4-2.1 倍,能效比提升 1.46 倍,可支持 340B 参数量的稠密大模型,以及 640B 的 MoE 大模型。
与此同时,中科加禾已实现对超过 10 家包括芯片、集成商、服务商等客户提供高性能推理支持,其架构支持国内外主流大模型,并可以进行多样化并行推理。
发布会现场宣布签约及达成合作的算力提供、应用方伙伴包括:AMD、宝德、华为、杭州人工智能计算中心、开放传神、摩尔线程、青云科技、Rise VAST、燧原科技、无问芯穹、云西算力、新华三等(按拼音首字母顺序排序)。
中科加禾创始人、CEO 崔慧敏在发布会上
异构原生 AI 算力,目标实现「三零一高」
中科加禾提出的方案,目标是让 AI 大模型应用在不同芯片上实现零成本迁移,零损耗使用,零延迟部署的高效使用。
这套软件工具包含异构原生大模型推理引擎「SigInfer」、异构原生微调引擎「SigFT」以及算子自动生成、转译工具「SigTrans」三款产品。
其中,昨天发布的 SigInfer 是一款跨平台、高性能的异构原生推理引擎,不但支持服务器级的 AI 加速卡,还支持消费级 GPU。因此,它既可以部署于数据中心,也可以为各种端侧设备实现加速。
作为异构计算的技术底座,通过 SigInfer 接入的不同 AI 算力,可以做到调用接口统一,平滑迁移业务应用。SigInfer 会在调用多种不同算力的同时进行多层次深度优化,充分挖掘芯片算力的潜能。
它具备现代大模型推理引擎所具备的各种特征,如支持 API Serving、请求调度、Batch 管理、KV Cache 优化、张量并行、流水线并行、专家并行、甚至多机流水并行等能力。
中科加禾表示,SigInfer 已经支持了业界大部分的大模型结构。
目前,SigInfer 已经可以实现完备的推理引擎能力。其支持的异构加速卡集群可以灵活调度英伟达 AI 加速卡 + 国产 AI 加速卡进行混合推理,最高可扩展至万亿级的大模型。
使用 SigInfer 帮助 AI 芯片部署可以在业务访问需求提升时,让大模型服务保持较高的吞吐率和较低的时延,对于生成式 AI 的大规模应用来说,这些指标至关重要。
在同样使用英伟达显卡的情况下,我们可以看到 SigInfer 能提供较明显的加速效果:
再进一步,使用国产芯片完成同类任务时,SigInfer 可以同样提升并行计算时 AI 加速卡的吞吐率,同时大幅降低输出 Token 的延迟。
异构原生 AI 算力工具可以根据大模型任务处理的不同阶段、算子特征、优化目标自适应优化等方式调整 AI 加速器的计算频率,从而实现高效率。中科加禾给我们算了一笔账,数据中心运营的过程中,使用 A800 加 SigInfer,相比 vllm 能效比可以提升 46%。
除了对云基础设施实施优化以外,中科加禾还展示了对于端侧推理的性能优化。SigInfer 可以加速基于英特尔、高通、AMD 等大厂的芯片设备,相比业界主流部署方案,SigInfer 在端侧推理的效率最高可以提升 5 倍。
在异构计算和效率提升的背后,是一系列前沿技术和工程的应用与优化。
为了提升并行计算的效率,中科加禾引入了一系列优化。例如深入解码阶段的访存优化,让 KV Cache 可以得到寄存器级别的复用,相比从 L2 加载,延迟和带宽都得到了优化。
同时,为了缓解并行度的减少,中科加禾的研究人员在数据的 sequence 维度上也进行了并行划分。结合 KV Cache 的复用优化,既节约了访存,又增加了并行度,让整个注意力机制的核心计算提高了执行效率。
中科加禾也探索了异构算力的高性能算子生成方法。通过与算力厂商合作,中科加禾把 cutlass 迁移到了国产芯片架构上,大幅提升了矩阵乘法的运行效率。在这其中,该公司通过结合编译技术的优化实现了超过 20% 的性能提升。
在一系列技术的加持下,加禾异构原生 AI 算力工具实现了卓越的能效优化。
从编译技术出发:中科加禾的技术路线
与以往一些 AI 算力基础设施公司提供的能力不同,中科加禾提供的异构计算与加速,是围绕编译技术展开的。
对于计算机而言,编译层所做的工作是「翻译」,它负责把人类编写的高级编程语言内容转化成机器理解并能执行的语言。
在这个过程中,编译还需要进行优化,即提高生成出来的机器代码的运行效率。对于芯片性能而言,编译发挥作用的范围很大,但时常被人忽略。
在目前业内最流行的英伟达芯片上,CUDA 计算平台发挥了重要作用。它包含编程语言、编译器、各种高性能加速库及 AI 框架,可以在计算机执行任务时充当分配者的角色,充分利用不同硬件的算力资源,让复杂的代码模型跑得更快。可以说如今的 AI 生态,很大程度上就是建立在 CUDA 之上的。
对于国产算力而言,为了实现大规模应用,就需要构建其需要的生态和能力。
在生成式 AI 时代,人们对于算力的需求推动了芯片技术的发展,然而新的挑战也已显现:
从芯片公司的角度来看,生态也呈现多元碎片化发展,这会带来开发成本增加以及落地效率和兼容性等问题。
从行业发展的角度来看,AI 技术正快速发展,其覆盖越来越多的场景,意味着更多种类的算力将会参与其中,这就进一步推动了异构计算的需求。
因此,业界迫切需要一套能够支持多种国产芯片的高效工具链。如果能够出现一套通用化、低成本、高性能的基础软件,并可以帮助生态伙伴快速移植基于英伟达生态开发的应用程序,就可以充分发挥出国产芯片的潜力,带动技术研发的步伐,从而逐步构建立起 AI 算力生态的正循环。
这就是中科加禾一直在做的事。
中科加禾提供的基础软件平台层,定位于算子、编译、框架层几个位置,在硬件和软件之间架设了一座桥梁。其提供的异构原生 AI 算力工具可以帮助用户平稳迁移 AI 模型和芯片架构,这就给 AI 应用带来了极大的便利性。
这些层面的能力都涉及了编译技术。AI 编译覆盖的范围既包含图层,也包含算子层,相对传统编译器在语义转换上的跨度更大。例如,AI 编译器一般要考虑计算图划分、子图融合、并行计算、数据分块等。这些都是较难解决的问题。
在这方面,中科加禾完成了大量研究,如在 Tensor 表达式层级做全局数据流分析,构建精确的计算图和数据依赖图,进而打破算子边界进行算子融合,取得了很好的效果。在一些网络上,其方法取得了相对于业界先进水平多达 3.7 倍的加速比。相关工作成果发表在今年的计算机领域顶级会议上。
构建端到端的算力使能解决方案,助力繁荣国产 AI 生态
中科加禾成立于 2023 年 7 月,团队主要来自于中科院计算所。创始人崔慧敏毕业于清华大学计算机系,是中科院计算所编译团队负责人。该公司的核心团队具备超过 20 年的编译器研发经验,曾作为核心成员主持或参与过多款国产芯片的编译器研发工作。
自成立以来,该公司聚焦于芯片编译与优化技术,致力于提供通用化、低成本、高性能的算力资源,以「聚芯片之合力,筑国产之生态」为使命。目前,中科加禾已收获了多轮共计近亿元融资。
中科加禾正在围绕三条路线打造系列产品,包括支持异构算力的 AI 大模型推理引擎、大模型微调框架、以及 AI 编译工具套件。它们既可以帮助算力使用方快速使用多元化的 AI 算力,也可以帮助算力供应方完善软件生态以及提升竞争力,补齐了国产 AI 算力生态的一块重要拼图。
更重要的是,中科加禾希望能成为一个「沟通」的桥梁,连接数量庞大的算力使用方和算力提供方,使双方能愉快的双向奔赴,从而推动异构原生 AI 算力的大规模应用和国产 AI 生态的蓬勃发展贡献力量。