算力不足仍然是制约通用人工智能发展的重要因素。GPU Utils 今年 8 月的一份数据显示,全球目前 H100 等效算力的供给缺口达到 43 万张。在解决算力不足的问题上,除了抢购和囤积英伟达,更多的方案正在浮出水面。清华系创业公司无问芯穹,是这个赛道上的一个答题者。不久前,机器之心介绍了来自无问芯穹(Infinigence AI)、清华大学和上海交通大学的联合团队所提出的一种新方法 FlashDecoding++。这项工作不仅能将 GPU 推理提速 2-4 倍,还能同时支持 NVIDIA 和 AMD 的 GPU。相较于 FlashDecoding,这项工作在 NVIDIA A100 实现了推理平均加速 37% ,在 AMD MI210 上实现 300%+ 的性能提升。基于这项工作,无问芯穹所研发的 Infini-ACC 大模型计算优化引擎通过对模型、系统以及硬件层面的系统优化,能够推动实现大模型推理速度提升 10 倍,模型存储空间降低 10 倍,部署时间降至小时级。无问芯穹依托计算加速的核心优势,帮助现有的算力方提高算力性能与性价比。并在核心优势基础上推出了智算云、智算一体化平台,支持异构算力调度,并提供端到端的一站式大模型落地方案。通过现有算力的效率提升以及对未利用算力的激活,无问芯穹希望能够为大模型市场带去新的算力增量。根据无问芯穹 CEO 夏立雪的测算,经过优化后的算力成本,相比 OpenAI 可压缩 2~3 个数量级,未来则将会达到 4 个数量级。这意味着,假如一个应用方原本需要向OpenAI支付100元的token费用,经过优化,这个价格最终将会被压缩到约1分钱级别。更值得注意的是,夏立雪在机器之心的专访中透露,作为中间件向外出售系统仅仅只是无问芯穹商业化策略中的第一步,无问芯穹更长远的计划是通过与算力中心合作,优化算力成本,直接向 B 端和 C 端开发者提供可以直接调度的低成本算力。“我们的最终目标不仅仅是作为中间层提供生态系统,而是直接为市场提供算力。未来,凡是服务和应用中涉及到大模型的,都是我们的潜在客户。”据无问芯穹方面透露,公司成立半年内,已经完成数亿元融资,投资人包括百度、腾讯和智谱等战略合作方,以及徐汇资本、红杉中国、Monolith、启明创投、北极光创投、经纬创投、真格基金和绿洲资本等投资机构。无问芯穹由清华大学电子系主任汪玉推动成立,拥有三位联合创始人:联合创始人及 CEO 夏立雪毕业于清华大学,是清华大学电子系主任汪玉的第一位博士毕业生。夏立雪长期致力于深度学习系统的设计方法学研究,入选 AI2000 人工智能全球最具影响力学者榜单,以及斯坦福学科 Top2% 科学家榜单。毕业后,夏立雪在阿里云负责过大语言模型的压缩加速、生成式 AI 模型芯片等核心战略项目。曾担任用户增长产品技术负责人,帮助阿里云从 0 到 1 孵化用户增长产品,稳定获得上亿年营收。联合创始人及 CTO 颜深根毕业于中科院软件所,是国内最早从事 AI 高性能计算的科研人员之一。为原商汤科技数据与计算平台部执行研究总监,帮助商汤搭建了两万片 GPU 的大规模高性能 AI 计算平台,并主持开发了多个深度学习系统软件,带领 200 人规模团队历时 3 年打造出上海 AI 超算原型机项目,总投入 6.7 亿。联合创始人及首席科学家戴国浩现任上海交通大学长聘教轨副教授,清源研究院人工智能设计自动化创新实验室负责人。戴国浩在电路设计自动化、异构计算、体系架构等领域发表高水平论文 50 余篇,谷歌学术引用超千次。承担包括国家自然科学基金青年项目在内的多个纵横向项目,个人负责经费超千万元。目前无问芯穹团队共有 100 余人,研发团队中 35% 以上来自清华大学,团队仍在快速扩张。夏立雪表示,当前公司的业务重点是商业化,以确保无问芯穹正行走在正确的商业路径上。夏立雪:无问芯穹公司注册于今年 5 月,核心团队从 3 月份开始组建。我们的创立与整个行业的大模型发展密切相关,大模型从去年年底开始受到大量关注,引发了对其在不同行业应用的广泛想象。但与此同时,但是我们看到,从商业上来讲,它要大规模落地还需要解决成本问题。很多场景的成立,需要从 “赔本赚吆喝” 到至少 “算得过来帐”。我是汪玉老师的第一个博士生,毕业后加入了阿里云。在阿里云期间,我一直与清华电子系保持着密切的交流。去年年底汪老师开始频繁地与我讨论,大模型爆发后,从电子系的位置出发能为这个产业做些什么,我们能提供的是否只是学术价值,还是也能提供产业价值?我们最后看到的核心问题就是国内整体的算力是远远不够用的,不能光靠芯片层的工艺提升和等待多元芯片的成长去解决这个问题。我们的目标就是去把现在能用的算力用好,以及把现在不能用的算力也用起来,能够帮助提供更多大模型产业可用且更便宜的算力。因此,我们核心的两个技术方向就是,一是大模型在芯片上的极致性能优化;二是把多元异构算力利用起来。我们的目标是建立一个生态系统,其中不同模型可以自动部署到不同硬件上,从而使这些未被激活的算力得到有效利用。夏立雪:汪玉老师是无问芯穹的发起人,核心成员是我、颜深根与戴国浩,我们负责过阿里云大模型压缩加速、生成式 AI 模型芯片、上海 AI 超算原型机、国家自然科学基金等项目。我们研发团队的成员参与过 Apache、ONNX、TensorFlow、PyTorch、PyG 等人工智能相关开源项目建设,并且是其中比较重要的贡献者。研发团队中 35% 以上来自清华大学,目前还在快速扩张。机器之心:你们定义自己是在 “追求大模型落地的极致能效”,为什么选择解决这个问题,能效又具体指什么?夏立雪:我们看到大模型落地的能效问题,一直悬在所有人的头顶上。全球都存在 GPU 的可使用性不足,也就是 “不够用”,目前全球芯片缺口高达 43 万张 H100 等效算力。其次是 “很难用”,大模型训练时延敏感、容错率低,部分硬件性能上本身不如英伟达,所以即使多元异构 GPU 集群建成了,实际中也很难真正把所有算力都用起来。最后是落地时 “用不了”,大模型作为人机交互的接口,在边端应用上有很高的发挥空间,但边缘侧设备能耗敏感,算力、存储和带宽都不足,应用普及很难。无问芯穹定义自己在追求大模型落地的极致能效,这里的能效是指技术实际发生的作用与所消耗能源量的比值。我们认为能效水平是生产力与竞争力的测度,比如在物种竞争中,大脑皮层中的神经元数量决定智力的高低。而人类之所以能够很快超越其他物种,主要是因为人类掌握了烹饪技术,也就是掌握了如何短时间、低成本摄入大量能量,以支持大脑中大量神经元运转的高能效技术。大模型行业现在非常需要这样一种整体的、高能效的 “烹饪方案”。放到任意经济体竞争、商业组织竞争中,同理,谁能以更快的速度、更低的能源消耗或成本实现更高的发展效果、产品质量,谁就更有可能胜出。机器之心:你提到全球芯片缺口大,即使多元异构 GPU 集群建成了,实际中也很难真正把所有算力都用起来,这些算力不能被充分利用或者说能效低,可能的原因是什么?夏立雪:在 AI 芯片市场上,全球面临的甚至都不是 “二八定律” 格局,可以说是 “一九定律” 了。英伟达占据了绝对领先的市场份额,这不仅是因为英伟达的硬件性能更强,也因为它在软件生态系统方面的优势。软件生态反过来帮助英伟达积累了大量的应用模型信息,让它能够及时迭代下一款芯片的设计。这就形成了一个强势的生态飞轮,一旦英伟达的产能跟不上需求,就会造成全球范围内的算力紧缺。尽管硬件厂商们都在追赶英伟达的脚步,但他们在软件生态系统的建设上仍然落后,这导致即使他们的硬件与英伟达的 A100 相当,也无法得到广泛应用。因此,构建健全的软件生态系统是当前的一个重要任务,这是我们在做的事情。机器之心:为什么软件生态很难构建?
夏立雪:软件生态发展需要时间、耐心和机遇。像英伟达很早就投入了大量精力来构建其软件生态,经过长时间的用户培育,加上对图形计算、高性能计算需求的准确洞察,这个壁垒才逐渐构建起来,并且越来越厚。硬件厂商如果错过了这个先发机会和市场机遇,就很难再获得足够的资金同时投入优质的芯片研发及其推广使用。
机器之心:如果说国产大模型公司和芯片公司直接合作建设智算中心,来增加自己可以用的算力,这中间可能面临什么难题?夏立雪:今天许多大模型公司和处于 “一” 这个份额空间中的芯片公司在直接合作,以期增加算力的可用性。在这类合作中,双方都需要从主线业务中抽调大量人力和资源来做适配,并且没有人希望 “把鸡蛋都装在同一个篮子里”。这种情况下,每家公司都会与多个潜在合作伙伴投入资源,例如一家模型公司和多个芯片公司一起合作。再加上这种合作如果是基于物质基础的,需要由他们多方共同承担成本、共同定价,这就形成了一个复杂的多维合作空间。我们的目标是帮助简化这部分的适配和优化过程,不需要客户承担合作研发的风险,并提供更好的优化效果。这本质上是打造了一个中间层的生态,一方面为算力使用方提供更多的算力供给选择,另一方面也能帮助各类硬件生态伙伴拿到真实的业务反馈,来进行下一步迭代。我们的客户不仅限于技术能力较强的大模型公司,还包括使用模型的公司。能效对这些公司来说很重要,他们的 AI 算法与应用场景紧密相关,所以可能只能投入 3 到 10 人的团队来处理模型相关工作,有了我们的介入,他们不需要再投入 30 人来组建一个完整的工程团队。机器之心:为什么你们认为现在这件事可以做了?情况发生了什么改变?夏立雪:虽然芯片制造商通常会承担部分软件工作,能够提供一些底层的基础命令,帮助开发者直接实现一些功能。但在一些复杂任务上,比如说现在通用大模型出现了,需要有专人将大模型任务需求翻译成硬件操作的指令组合。打个比方,就像计算器上的加减按钮,通过这些基础按键的组合,我们能解决更复杂的问题。我们看到的是,通用大模型时代,中间层能效优化可以有更多纵深了。在过去,行业内要解决一个任务,需要定制化开发一个模型。像聊天能力、翻译能力、搜索引擎…… 需要使用不同的模型来实现。任务与算法绑定,只能进行任务与算法的协同设计,落到系统上,中间层要做很多不同的工作。汪老师过去创办的深鉴科技,跟我们现在的工作有点类似,但因为图像模型、语音模型和自然语言模型之间有巨大差异,想要不赔本,只能针对单一类型的模型去做。而现在,我们可以使用一个通用模型去解决多个任务了。通过下游任务微调,同一个大语言模型可以实现不同任务。由于大模型高度统一了模型结构,让生态这件事出现了一个好的机会窗口,使得我们可以专注于这样一个更狭窄的领域,应用、算法、系统之间可以进行协同优化了。完成它的投入不会大到不可靠,或者说绝对算不过来帐。虽然不同公司的模型训练数据可能不同,但模型结构是相似的,这允许我们在这个特定时间点开发一个好的中间层工具,将不同模型映射到不同公司的硬件上。机器之心:具体一点看,过去和现在两种情况下,对搭建软件生态这件事的难易程度分别是怎么样的?夏立雪:可以预估算子数量来体现这个难易程度的变化。比如在过去,每个领域和每种模型结构都有许多专属算子,例如 Pytorch 的算子库,算子数量约为 2000 个。但是在现在以 Transformer 系列为核心的 GPT 或其他大模型中,算子数量可能最终会减少到不超过 100 个。这意味着,虽然总体开发量仍然超过 2000,但如果从使用量角度考虑,超过 99% 的计算量集中在这 100 个算子上。因此,我们可以专注于优化这 100 个算子。其他部分不再是优化的瓶颈。
夏立雪:我认为我们的团队本身擅长做这件事。清华电子系一直致力于将有意义的算法与实际场景结合,创建具有商业价值的解决方案。我们专注于模型、软件和硬件的综合优化,以降低模型推理成本,将实验室的技术成果转化为可持续的商业产品。我们的工具有两个特点,快速且高效。这意味着,使用模型的人不需要理解底层的细节,就能高效地使用它,同时保证最佳性能。机器之心:所谓的 “M×N” 中间层,具体是指什么?夏立雪:前面我提到,每家公司都会与多个潜在合作伙伴投入资源,这会形成一个复杂的多维合作空间。我们的解法是,在百花齐放的模型层和多元异构芯片层之间打造一个灵活兼容的中间层,实现 “M×N”,也就是 “M 种模型” 和 “N 种芯片” 间的高效、统一部署。- 从算法到芯片阶段,针对算力紧缺问题,通过大模型计算优化引擎,让算法与芯片相适配,提升芯片可用性。
- 从芯片集群到模型阶段,针对算力池异构特性,建设智算系统层,帮助开发者们屏蔽异构硬件的影响。
- 从模型到模型应用落地阶段,通过提供包含各模型及其高效微调、计算优化在内的端到端落地服务,降低推理计算量级、时延与成本。
机器之心:按照这个思路,你们如何为算力市场带来增量?首先,我们用英伟达的显卡验证了我们优化工具的能力,在各个业界团队都在争相优化英伟达的环境下,我们的优化效果仍然达到了世界第一,比 SOTA 高出约 30%。另外我们也验证了优化能力在不同硬件上的泛用性,在 AMD 硬件上我们的优化结果也是世界第一,测试效果提升了 300% 以上。这表明我们的工具链在性能提升方面具有直接的益处,能够支持不同硬件上的扩展,我们有很多个行动小组,正在和 10 家以上的硬件厂商做适配。夏立雪: 国内算力紧缺,所以大家并不是在抢夺客户,而是都在争取有限的资源。我们商业化的核心是提供优化过的、具有更高性价比的算力服务,扩大供给,满足客户的需求。主要有两方面,一方面是为硬件厂商提供 “中间层封装”,提升硬件可用性,让他们能够打开大模型市场,把产品销售给更多客户。另一方面是基于中间层能力,和算力集群共同运营、优化和提升算力供给,提升算力使用的性价比。这一块我们已经和一些算力集群签署合作协议。未来将直接对接大模型相关客户,为他们提供算力。机器之心:这里第二种商业模式是通过出售算力来赚取差价吗?夏立雪:一般来说,差价意味着以低成本获取算力,然后直接高价出售,就像中间商。但我们的目标是 “把蛋糕做大”,利用技术优化和适配能力,使未充分利用的算力发挥更大价值。这种 “差价” 实际上是我们通过技术提供的增量算力。我们所做的包括扩大算力池,让原本用不了的卡被用起来,并提高每一块卡的效率,让一块卡的产能相当于两块卡甚至更多。这样,原本只能支持数十个业务的算力现在能支持数百个业务,这是一个增量市场。另外,我们的最终目标不仅仅是作为中间层提供生态系统,未来凡是服务和应用中涉及到大模型的,不管是做 B 端还是做 C 端,都是我们的潜在客户。因为他们需要大模型的算力,我们可以提供性价比高且易于开发的算力服务。这些服务里面还可能包含某些开发工具。机器之心:使用你们的产品后,在成本上的体现是怎么样?客户成本可以降到多少?夏立雪:通过软硬一体协同优化,我们的目标是最终实现调用成本约 4 个数量级的下降。前段时间我们推出了大模型无穹天权,它在处理长文本方面表现出色,有 256k token,这是当时的大模型所能处理的最长文本长度,大概是 40w 汉字长度的文本。这一方面证明了我们优化后系统架构的可靠性,一方面也强调了在长文本等对性能优化技术要求高的场景中无问芯穹的技术实力。40w字输入给ChatGPT是很费钱的,现在行业内普遍都反映这个成本很高、做推理很贵,有的创业者甚至表示 “GPT 创业四个月,投入五六千,用户五六千,收益几十块”。多数开发者和用户是接受不了这么高昂的价格和这么低的投产比的。目前无问芯穹已经实现了 2~3 个数量级的成本压缩,目标最终将这一价格降低 4 个数量级,让大模型落地应用不再是 “开着兰博基尼送外卖”。我们希望发挥异构算力潜能,把成本降下来,推动模型训练、推理门槛降低,让更多创造者进入这个领域。机器之心:未来在理想化状态下,能达到什么样的程度?夏立雪:我们的 Slogan 是 “释放无穹算力,让 AGI 触手可及”。我们希望,当你使用基于大模型开发内部或外部应用时,调用我们的算力就像使用 API 接口一样简单。使用我们的服务时,你不需要关心背后的具体技术,比如是否是某特定品牌的卡。交流请添加本文作者微信:jjingl-(注明公司-职位-姓名)