部署 DeepSeek 系列模型,尤其是推理模型 DeepSeek-R1,已经成为一股不可忽视的潮流。不只是 AI 和云服务商在部署 DeepSeek 系列模型以提供 AI 服务,很多企业和组织也在部署它们来助力自家的业务,比如为自己的员工提供支持,或者让自己的服务变得更加强大。甚至很多学校也在部署自己的 DeepSeek-R1 以辅助教育和助力「学生建立正确使用 AI 价值观」,包括中国人民大学、北京交通大学、浙江大学、上海交通大学等等,其中一些甚至采用了本地部署「满血版」DeepSeek-R1 的做法。本地部署自己的 DeepSeek-R1 固然是一种选择,但对绝大多数(尤其是规模较小的)企业和组织来说,这个选择并非最优,因为本地部署往往需要在技术、安全和运维等方面投入大量资金和人力资源。作为替代,基于云的部署或许是一种更合理选择。事实上,现在已有不少云服务商在争夺这方面的业务,其中包括国内所有主要的云服务商,如腾讯云、阿里云和火山引擎;这些云服务商为了争夺市场份额,纷纷推出了各种优惠措施,力图在这后 DeepSeek-R1 时代初期占据更大的市场份额。而要说哪家云服务商最有可能夺得这场竞赛的头筹,相信很多人都会不假思索地给出一个答案:火山引擎。并且,原因不仅仅是火山引擎的性价比最高,更在于其能提供高速、可靠和安全的服务,保证企业能够稳健地在云上部署自己的 AI 模型和服务。就连 DeepSeek-R1 模型也非常认可火山引擎在 AI 模型部署上的优势。 DeepSeek-R1 分析在火山引擎部署 AI 模型的优势不管是速度还是性能,火山引擎的强劲表现已经得到了 SuperCLUE 和基调听云等多个第三方评测平台的认可,比如基调听云便在《大模型服务性能评测 DeepSeek-R1 API 版》中写到:「火山引擎在平均速度、推理速度、生成速度上表现最优,且可用性高达 99.83%,在 API 接入上首选推荐。」前段时间,火山引擎更是领先全网将每位用户的初始 TPM(每分钟 token 数)上调到了 500 万!一时之间吸引了无数眼球。此外,火山引擎也已经成功将 TPOT(输出每个 Token 的时间)稳定地降低到了约 20 ms,成为了国内延迟最低的大规模 AI 模型推理服务 —— 要知道 DeepSeek-R1 在思考时往往会生成大量 token,单 token 输出降低几毫秒时间就足以大幅加速输出过程。物美价廉,火山引擎为什么能成为后发先至的云服务商?主要是得益于其为 AI 时代的云服务率先总结出了自己的方法论:AI 云原生。对于熟悉云计算的读者而言,「云原生」这一概念应该并不陌生。简单来说,云原生(Cloud-Native)是指围绕云计算开发和部署应用的方法论,其核心目标是让应用更好地适应云环境的特性,实现高可伸缩性、弹性、可用性和自动化管理等优势。同时,由于云原生可通过云架构带来弹性存算分离、服务化等特性,企业能够非常高效地去构建自己的大规模业务系统。云原生架构被广泛认为是过去十年计算技术发展的关键范式之一,它为现代应用的可扩展性、灵活性和高效性打下了坚实的基础。基于这一发展背景,「AI 云原生」则是将云原生理念应用到人工智能(AI)领域,专注于 AI 工作负载的云端构建和部署。2024 年 12 月,火山引擎成为了国内首个提出并实践「AI 云原生」的厂商。当时,火山引擎总裁谭待在 2024 冬季火山引擎 FORCE 原动力大会上表示:「我们认为下一个十年非常重要的事是计算范式从云原生进入到 AI 云原生的新时代。」他还指出,火山引擎指出 AI 云原生的特点是「以 GPU 为核心」。相对而言,过去的云原生则是以 CPU 为核心。到了 AI 时代,如果还是继续沿用这个架构,就需要让大量数据经由 CPU 绕行,再交给 GPU 处理,但这样无法充分利用 GPU 高算力和大带宽的优势。另外,GPU 训练和推理的场景也对高速互联、在线存储和隐私安全提出了更高的要求。AI 云原生首先要做的便是以 GPU 为核心来重新优化计算、存储与网络架构,让 GPU 可以直接访问存储和数据库,从而显著降低 IO 延迟,同时还要让整个系统有能力提供更高规模的高速互联和端到端的安全保护。而现在,火山引擎 AI 云原生的关注重心有了进一步的升级:从「以 GPU 为核心」转向了「以模型为核心」。火山引擎总结了以模型为核心的 AI 云原生基础设施的几大主要特征:全栈推理加速,并具有最佳工程实践;
具有高性价比的资源和灵活部署模式;
更高安全性保障大模型应用平稳运行;
易用性好并且具有优良的端到端体验。
正是基于 AI 云原生的理念,火山引擎推出了新一代的计算、网络、存储和安全产品,并总结出了一套实现 AI 最佳部署的方法论。以 DeepSeek 部署为样板:火山引擎总结出 AI 云原生最佳部署方法论秉承 AI 云原生理念,火山引擎基于支持火山方舟和各行业客户 DeepSeek 实践的部署流程,总结出了从开源模型到企业部署调用的端到端关键步骤。简单来说,这个流程包含四大关键步骤:模型选择、最佳资源规划、推理部署工程优化、企业级服务调用。如下图所示。当然,这套流程不仅适用于部署 DeepSeek 系列模型,企业在云上部署其它 AI 模型式也完全可以参考。第一步:模型选择。在选择 AI 模型时,并不是总是越大越好,毕竟有的任务对准确度的要求可能并不高,反而有较高的效率需求,比如实时语音检测、异常监控和简单的图像分类或文本情绪识别任务。用户应根据自身的业务需求正确选择合适的 AI 模型 —— 有时候使用 DeepSeek-R1 蒸馏版其实更佳,比如集成在实时语音助手中时。这一步涉及到模型适配性判断以及模型性能评估。第二步:最佳资源规划。在部署 AI 模型时,并不是资源越多越好,还需要兼顾成本因素和资源冲突等问题。因此,选择合适的部署模式(云上部署或混合部署)以及有效的资源调度和监控以及成本控制是必需的。第三步:推理部署工程优化。用户在前两步确认了自己的需求之后,就需要根据自身需求选择平台,其中的一大重点是考虑平台能够为自身业务提供足够的性能优化,比如是否有较好的 PD(Prefill 和 Decode)分离方案、弹性的资源调度方案等。第四步:企业级服务调用。对于企业来说,光是保障性能与服务稳定性还不够,数据安全与隐私也是重中之重。此外,企业还需要考虑如何将 DeepSeek-R1 等模型集成到已有的系统中,其中涉及到适配和调试、API 对接、IAM 身份认证管理等诸多议题。火山引擎认为上述四步都是「AI 云原生」必须为客户提供的能力,而火山引擎自身已经做到了一点。也因此,可以说火山引擎是部署 DeepSeek 系列模型的最佳选择。数据说话:火山引擎是部署 DeepSeek 的最佳选择有了新的方法论和最佳部署流程,我们再来看看火山引擎有何优势,为什么说火山引擎是部署 DeepSeek 模型的最佳选择。最大 768G 显存 + 最高 3.2Tbps 高速 RDMA 互联带宽火山引擎配备了高性能的计算资源。在 GPU 方面,火山引擎可以提供 24G、48G、80G、96G 等多个 GPU 显存规格的云服务器实例,单机最大支持 768G 显存 —— 足以部署 671B 的 DeepSeek-R1 满血版(全量模型的文件体积高达 720GB)。当然,用户也完全可以选择在更小的实例上部署满足自身需求的不同大小的蒸馏版 DeepSeek-R1。同时火山引擎具备业界领先的高性能计算产品能力,有成熟的多机互联集群产品方案,跨计算节点最高可提供 3.2Tbps 高速 RDMA 互联带宽。因此,用户也可通过 RDMA 网络互联的 GPU 云服务器,轻松部署 DeepSeek-R1 满血版。全栈且系统化的推理加速:320Gbps+80%+1/50+100%火山引擎提供了全栈且系统化的推理加速能力,可端到端地从硬件到软件提供加速优化能力。硬件方面,前面已经提到了火山引擎卓越的跨计算节点。此外,从 GPU 在数据中心中部署开始,火山引擎就已经开始在做优化了:把高算力的 GPU 和高显存带宽的 GPU 以合理配比做了亲和性部署,首先从物理层面就降低了数据跨交换机传输的概率。不仅如此,火山引擎还为跨 GPU 资源池和存储资源提供了最高达 320Gbps vRDMA 的高速互联能力,实现了整体通信性能上最高 80% 的提升,通信时延领先同类产品最高可达 70%!(注:火山引擎采用的 vRDMA 网络是基于标准 RoCE V2 协议自研的,在部署 AI 方面极具效率和灵活性优势。)火山引擎也实现了对 PD 分离架构的大规模支持。事实上,火山方舟也是国内公有云平台上最先支持 DeepSeek PD 分离的 —— 对于 Prefill 和 Decode 阶段各自适合用什么卡以及比例多少,都可以为客户提供最佳实践。软件方面,对于大模型的 KV-Cache 优化,火山引擎推出了相应的加速产品:弹性极速缓存(EIC);可通过以存代算、GDR 零拷贝等方式大幅降低推理 GPU 资源消耗,优化推理时延 —— 甚至可将推理时延降低至原来的 1/50,同时还能将 GPU 推理消耗降低 20%。火山引擎还自研了推理加速引擎 xLLM,可将端到端大模型推理性能提升 100% 以上!当然,如果用户更偏好通过社区版本的 SGlang 和 vLLM 部署 DeepSeek 模型,也能在火山引擎上获得良好的支持。此外,火山引擎也提供基于开源 Terraform 的一键部署方案。用户只需复制脚本代码并执行,即可安全、高效地完成基于 ECS 的部署。在模型加载加速方面,通过缓存、预热等能力,模型拉取和加载速度也能够提升数倍。火山引擎提供了 1 站式的模型部署和定制能力。以部署 DeepSeek 系列模型为例,火山引擎的用户可以选择适合自己的各种层级的解决方案,包括:更棒的是,针对其中每一个层级,火山引擎 AI 云原生都有快速部署的最佳实践,让客户可以快速完成 DeepSeek 系列模型的部署。在此基础上,火山引擎也提供了一站式的模型定制能力。用户不仅可以在火山引擎上完成对全尺寸 DeepSeek 模型的微调,还可以根据自身业务需求对模型进行蒸馏甚至进一步的强化学习,从而以最优的资源利用率得到最适合自己的定制版 DeepSeek 模型。火山引擎一大众所周知的优势便是便宜,但这种便宜却并不是以牺牲性能为代价。事实上,火山引擎的高性价比来自于长期的资源与技术积累。在大规模算力资源池的基础上,火山引擎还已经与字节跳动国内业务实现资源并池。也就是说,在其它业务低峰期,字节跳动可将国内业务的空闲计算资源极速调度给火山引擎客户使用。据了解,只需分钟级的时间,火山引擎就可以调度 10 万核 CPU、上千卡 GPU 的资源量。通过弹性计算抢占式实例和业界独创的弹性预约实例产品模式,火山引擎更是做到 GPU 资源的潮汐复用,让价格最高可优惠到 80% 以上!火山引擎可说是真正做到了物美价廉还有钱可赚。举个例子,如果要部署 671B 参数量的满血版 DeepSeek-R1/V3,当前市场主流的云方案是使用 8 卡显存 96G 的 GPU,而火山引擎在该业务上价格低于阿里云 17%、低于腾讯云 16%,下表展示了价格详情:
| 规格/系列 | 刊例价(元/月/台) |
火山引擎 | 高性能计算GPU型hpcpni3ln | 133000 |
阿里云 | 灵骏计算节点-gu8tf | 161253 |
腾讯云 | GPU型HCCPNV6 | 158708 |
稳定又安全:分钟级定位问题实例 + 减少 90% 以上回复不准确问题
对企业来说,业务的稳定和安全可说是重中之重。凭借扎实的业务积累,火山引擎能在稳定性和安全性方面给予客户足够的保障。
稳定性方面,火山引擎提供了全面且丰富的检测手段,比如在高性能计算集群的 RDMA 监测指标上,火山引擎提供了 17 个监测项,可说是业界领先;同时,火山引擎在分钟级的时间内就能在上千台实例中定位到问题实例。发现问题后,火山引擎也提供了非常高的修复效率,可在分钟级时间内完成自愈,甚至可在一分钟时间内完成单机冷迁移任务。安全性方面,火山引擎基于自研大模型应用防火墙,可提供强大的 All in One 安全防护能力,足以为用户部署 DeepSeek 模型保驾护航。比如在抵御算力 DDoS 攻击方面,火山引擎可以消除恶意 token 消耗风险,从而使服务可用性提升数倍,确保大模型服务能够稳定运行。此外,火山引擎还部署了相应自研大模型应用防火墙方案来防范提示词注入攻击(敏感数据泄露事件发生率可降低 70%)、减少 90% 以上幻觉等问题导致的回复不准确问题以及保障内容合规。后 DeepSeek-R1 时代,火山引擎 AI 云原生将成为 AI 应用大爆发的基石随着 DeepSeek 系列模型的广泛部署和应用,AI 技术的变革已经进入了一个全新的阶段。DeepSeek-R1 作为其中的核心推理模型,不仅在科技行业引发了深刻变革,更在教育、企业服务等多个领域展现出了巨大的潜力。然而,正如我们所讨论的,尽管本地部署能给一些大规模组织提供可定制的灵活性,但对于多数企业而言,成本、技术、运维等层面的挑战往往让本地部署变得不可承受。在这样的背景下,基于云的解决方案显得尤为重要。火山引擎凭借「AI 云原生」的理念,展现出了与时俱进的技术优势。从「以 GPU 为核心」到「以模型为核心」,通过对存储和网络架构的重新设计,以及在性能、稳定性、安全性等多方面的卓越表现,火山引擎 AI 云原生不仅仅是技术的创新,更是未来十年内推动 AI 应用蓬勃发展的基础。而这次展示的 DeepSeek 系列模型四步部署方法论正是火山引擎为企业大模型部署打造的 AI 云原生样板间。后 DeepSeek-R1 时代,AI 发展的脚步不会停歇,火山引擎作为强大的后盾,将成为推动 AI 应用大爆发的关键力量。从加速 AI 模型的部署到实现更广泛的行业落地,火山引擎无疑将在未来的 AI 生态中占据重要席位,助力各行各业进入更加智能化的时代。