Chat GPT 技术底座是基于微调后的 GPT3.5 大模型,据说训练使用了微软专门建设的、由一万个 V100 GPU 构成的 AI 计算系统。
中国的通信基础设施已经非常好,但回到算力这个事情上,第一还是美国,他们的几个云服务商太厉害了。一个月前,在江苏南京参观长三角首个国产技术算力中心——南京鲲鹏·昇腾人工智能计算中心(以下简称「计算中心」)时,媒体和邀请方都有类似的感触。
2020 年 4 月,国家发改委首次明确「新基建」范围,将数据中心和智能计算中心作为算力基础设施纳入其中。此后,各地都开始建设这类中心,这也成为近期中国科技企业力推的项目。2021 年世界人工智能大会上,华为曾表示年内正式落地超 20 个 AI 计算中心建设启动。
01「普惠」的策略
沿着南京长江五桥向北行驶,出隧道就能看到南京人工智能计算中心的大标志 —— 「昇腾万里,力算未来」八个字。
2021 年 9 月,计算中心一期启动,并于今年 4 月完成基础平台建设,5 月正式上线。一期规划 40P(每秒计算 4 万万亿次)算力,上线即接近饱和,当前平均算力使用率在 95% 以上。
走进计算中心,大家立刻被几个巨大的铁皮疙瘩——Atlas 900 AI 集群吸引住。Atlas 900 由数千颗昇腾 910 AI 处理器互联构成,每颗昇腾 910 AI 处理器内置 32 个达芬奇 AI Core,单芯片提供比业界高一倍的算力。该集群峰值性能相当于 50 万台 PC 的计算能力。
铁皮疙瘩上面印有 「北联国芯」,华为将芯片提供给这家南京本地企业,由他们去做整机。服务器操作系统(欧拉)、数据库(高斯)包括 AI 框架,也都采用了华为开源软件。
除了服务器,计算中心还包括存储、网络等基础设施。如果说建设成本主要在主机和网络上,投入运营后,电费就成了主要支出。
由于需要大量电力为服务器、存储、电力冷却基础设施供电,大多数服务器需要定于固定温度才能正常运行,数据中心也被称为「不冒烟的钢厂」。南京的计算中心采取了一体式液冷技术,相对于传统风冷数据中心能耗,可以节约电量 30%-50%。
数据中心平均 PUE (Power Usage Effectiveness)值一般在 2.0 左右。「(这个)项目设计 PUE 值在 1.33,我们观察到核心模块的 PUE 能够控制在 1.2 再往下一点。」南京先进计算产业发展有限公司副总经理孙祥告诉我们。
计算中心的建设模型
具体运作上,计算中心通过网络聚合算力,形成大的集群,再将算力包装成标准化资源,根据需求调动。某 AI 企业可以拥有一个专属资源池,完全供其使用,保证开发效率,也可以采用按需资源池,类似云服务即插即用,提高资源利用率,降低成本。
「价格上,我们相当于提供普惠算力,与市面上其他公用云的成本和价格还是有比较大的区别。」江苏鲲鹏昇腾生态创新中心 CEO 陈俊屹说,「现在市场上公有云用的是国外的技术,国外板卡很贵,成本很高。」
陈俊屹进一步介绍道,当前 AI 行业渗透率仅 7% 左右。大量场景没有用人工智能,不是因为用不到,不是因为不需要,而是因为企业自己组建训练算力,成本很高。
计算中心提供的普惠算力一定程度降低了企业开发成本。对于华为来说,让广大人工智能开发者从熟悉的开发环境 TensorFlow、PyTorc 迁移到自己的 MindSpore,普惠也不失为一条良策。
具体服务上,对缺乏 AI 开发能力的广大行业用户和中小企业,计算中心可以提供面向具体应用场景的行业使能套件,企业可以专注业务流程本身;对于具备一定开发能力的企业,中心提供预训练模型库 ModelZoo +参考设计+模型开发工具链,解决模型的选型难、训练难,以及数据获取难等问题。
对龙头企业和科研院所,通过建设联合创新实验室或项目,实现「互通」—— 行业软件、数据库、操作系统、服务器如何实现最优配合? 现有技术还可以形成哪些新应用方案? 通过不断打磨产品和方案的性能和成本,让其以成熟姿态进入市场。
走出大楼,可以看到,在已经建成的南京人工智能计算中心 5 号楼旁边,7 号楼已经拔地而起,两栋楼规划设计标准机柜 3500 个。据评估,未来一年南京市的人工智能算力需求预计将达到 1500 P。
02「根创新」与新课题
离开计算中心后,我们接着前往江苏鲲鹏·昇腾生态创新中心。创新中心藏身于位于江北新区的一座新建楼层里。附近进驻了基础软件合作伙伴海量数据、北明软件等一批信创企业。
创新中心两层楼的结构就像一棵树:一楼展厅环绕式设计详尽呈现基础技术全貌,二楼展厅布满树上结出的果实——各种应用场景和解决方案。其中,一楼展厅最让人印象深刻的是一张名叫「根技术创新」的图表,概括了华为有别于于市场竞对的主要特点 ——「全程采用国产技术系统,这就在整个链条上解决了『卡脖子』的问题。」陈俊屹说。
一楼展厅里,华为提出的根技术创新
一条完整的 IT 产业链,通常由三层构成。芯片,存储,服务器,网络等设备硬件位于最底层,再往上一层是基础软件,它们直接运行在硬件和上,包括数据库、操作系统等。最上层是应用软件,与每个消费者日常生活、企业客户业务息息相关,比如微信、支付宝、ERP、CRM、工业软件,一般办公套件等。
无论是处理器、操作系统还是数据库,全世界所有 IT 系统是建立在美国人的「根技术」之上—— 从英特尔、微软到甲骨文等,建立在人家「根技术」之上的繁荣,犹如在沙堆上建了一栋楼。
就拿服务器生意来说,芯片、内存、硬盘基本占据服务器产值的 90%。国内某服务器大厂一年收入 500 多亿,仅给英特尔一家供应商就要缴纳 170 多亿。如果英特尔返点多一点,企业利润可能多一点;不给返点,不盈不亏就算不错。
硬件方面,华为从 2004 年开始投资研发第一颗嵌入式处理芯片。随着整个行业对 AI 算力需求越来越大,2012 年到 2018 年,AI 算力消耗几乎增长了 30 万倍,谷歌于 2016 年针对 AI 框架 TensorFlow 发布了第一代张量处理器 TPU。之后。为了在数据中心领域抢占英伟达份额,中国各大科技企业竞相发布自己的 AI 芯片,华为也发布了昇腾 910。
基础软件上,鸿蒙与欧拉操作系统被誉为华为基础软件的双子星。特别是后者,主要定位国家数字化基础设施的操作系统。值得一提的是,虽然人们常说「芯片+操作系统」是计算产业的根,但像数据库这样的基础软件,其战略意义和开发难度绝不亚于操作系统。
数据库犹如文件柜,直接建构在存储、计算等底层硬件之上,并为上面的应用软件提供数据的基础服务,例如查询、录入、分析等。历经九年「在刀尖上起舞」,2019年,华为也推出了自己的数据库产品 Gauss 数据库,当时该产品已在金融、能源、政企等国内客户得到上线应用。
目前,华为和美系厂家一样提供了这些基础软件的开源版本。这意味着它们从企业主导模式,转变为业界共同参与,意图加速上层生态建设。
至此,开源基础软件,加上自己的 AI、CPU 以及在此基础上集成板卡、服务器、集群、AI 计算框架 MindSpore 等计算硬件和软件产品,共同构成华为对外输出的服务能力。
除了推出鸿蒙、服务器的欧拉操作系统、高斯数据库之外,也和美系厂家一样提供了免费的开源版本 OpenHarmony,OpenEuler,以及 OpenGauss,把基础的能力对外开源和开放,以吸引国内开发者基于这些开源平台做二次开发。
华为在计算中心生态里谋求的是做一个相对完整的布局、全栈自主可控的雏形。接下来,IT 领域能否实现自主可控、AI 领域能否实现自主可控,单靠华为自己是做不起来的。对于习惯了单打独斗的华为来说,这也是一个颇具挑战的新课题:
通信设备市场高度标准化,追求极致技术、力出一孔就能见到效果。人工智能是生态型产业,不是把产品竞争力做到极致就够了,需要用开放生态的方式来驱动,这点华为没有经验。
这里最关键的是时间,就跟农民种地一样,需要慢慢培育,自然生长。目前,计算中心服务对接客户100+家,完成联合创新方案150+,涵盖电磁仿真、生命健康、智慧育种、智慧城市等方向。其中,AI 类企业、偏互联网企业用户约占 40%,还有一些传统行业,比如制造业,主要场景是智能质检、安全生产。
计算中心服务目前对接的客户和标杆案例展示。
「在 AI 方面,我们坚定地看好信创市场,也跟华为的基础软做了深度适配。选择华为昇腾技术栈,(也是我们)定位上(的)差异化。」奥看科技 CEO 庞明告诉我们。这家位于南京江北新区的公司是华为目前智能视频领域最大 ISV,跟随华为做了很多行业的头部项目,包括位于江苏常州的蜂巢能源智能化工厂。
蜂巢能源工厂自动化程度很高,但在风险识别环节,仍然需要一些人工干预,包括是否佩戴安全帽、开工期间不能有人进入某些区域、仪表盘是否正常运转。透过部署基于华为全栈的 5G+AI 安全生产解决方案,现已实现秒级风险识别,分钟级事件处置,事故率降低了 60%。
方案中,边侧部署了基于 Atlas500 智能盒子,算力比较强劲,现在 16G 算力可以并发跑 16 路高清视频智能分析,是现在市面上大多数 AI-BOX 性能的 2 倍左右。这套方案也利用了计算中心的华为训练框架,可以对安全生产各种算法进行快速训练孵化和定制。
03 基因与分寸
2019 年,中美贸易摩擦,美国阻断华为全球供应链。作为当时全球最大通信设备制造商、第二大智能手机制造商,华为核心业务承压,曾经并不起眼的企业业务承担起孕育一系列新商业活动的重担。
2020 年,在「新基建」全面启动的大背景下,全国各地的信创项目大面积铺开,中国政府和企业开始加速国产替代,希望在关键领域(比如党政、金融、通信等),将芯片、操作系统、终端等软硬件逐步替换成国产。在数据中心和云服务领域,国产替代正稳步推进——从政府升级系统,提供更多在线公共服务,到垂直行业的企业数字化转型。
「现在自主可控是国家战略,不仅是政府,工业企业的头部、腰部以上企业,不管是央国企还是大型民营企业都认识到数据安全、下一步的信息化发展,国产替代都涉及根本问题。」庞明告诉我们。
这也成为华为企业业务增长的重要引擎。近几年,华为企业业务部门在世界各地建立数据中心和云计算业务,中国市场前景看起来也十分强劲。目前,华为几乎在每个省都布局了鲲鹏服务器生态中心,人工智能计算中心也有二十多个。
数据显示,华为设备收入在 2022 年上半年虽然大幅下滑,但企业业务整体销售额猛增了28%,达到 550 亿美元,约占总收入的18%。华为也指出,未来几年,中国市场仍将是企业业务增收的主要来源,海外业务则会继续保持合理的增速。
与其他互联网大厂优势主要在于算法框架、模型和数据等偏软实力不同,华为的打法携带明显的硬件基因。早在 2011 年,华为就布局了企业业务,主要出售服务器、存储等硬件设备,也逐渐有了自己的芯片矩阵。华为也以硬件产品为核心,主打「硬件、芯片、IP、软硬件栈」全栈解决方案(供应商)。
一般来说,数据中心一半成本会花在采购服务器等 IT 设备上。现在国家倡导采购全国产服务器,华为这样的国内硬件厂商可通过售卖硬件,从中获益。搭配硬件设备的打包销售,也有利于华为扩大市场。比如,华为不会出售单独的 AI 芯片,而是以芯片为基础,开发 AI 加速模组、AI 加速卡、AI 服务器等硬件用于出售。有业内人士曾对财新记者表示,过去一年(2020年),不少华为云服务都是通过硬件搭售出去。卖硬件给客户,不仅订单金额大,而且交付后即刻产生利润。
数据库作为基础软件,起到「承下启上」的作用,是华为信创体系拼图中重要的一块。发展数据库,除了卖云,也有利于卖硬件。「openGauss 其实没有商业变现的诉求,而是为了发展计算生态,华为在计算硬件的基础上还需要软件的支持。」华为计算产品线 openGauss 数据库产品总经理胡政策曾对财新记者表示。
华为的另一个竞争特点在于过往服务政企和高校客户积累的资源得到了复用。比如,华为与南京的高校已经合作了二三十年,现在又成了人工智能计算中心的生态伙伴。《经济学人》近期刊文指出,许多中国公司正在弃用甲骨文的数据库,请中国公司搭建本地数据库,华为正在赢得大量此类业务。长期的资源积累对于其跻身中国第二大云供应商,功不可没。
华为很早成立了企业业务部门,向传统企业销售服务器等 ICT 硬件产品,与其采购人员建立联系,并在当地拥有渠道合作伙伴。这有点像 IBM 软件集团成立之初,由于硬件技术吃重,软件销售渠道主要寄于其传统的硬件体系。
不过,就像当年甲骨文收购 SUN 公司之后,其在服务器、存储和处理器领域占有了一席之地,但也因此直接成了IBM,思科等公司的竞争对手。过去甲骨文把数据库卖给这些客户,用在他们的服务器上。对于自带「左右手互搏」基因的华为来说,也有分寸与界限的问题。
对此,华为工作人员表示,华为在逐步退出硬件制造,与地方企业合作。南京智能计算中心服务器是北联国芯的主要产品,其作为本地制造商跟华为鲲鹏、昇腾紧密合作,产品包括通用型服务器,昇腾包括板卡类以及一些边缘端的盒子。
包括整机,华为以后卖的也少了。鲲鹏服务器现在 95% 以上靠整机合作伙伴出货,华为不卖了。操作系统、数据库除了华为自己用之外,商业版也不卖了,让伙伴基于开源系统去做各自的商业版本赚钱。
04 他山之石
中国工程院院士倪光南曾表示,由于基础软件的国际垄断性很强,如果没有国家支持,单靠企业自身力量很难发展。这是一方面。
另一方面,全球 IT 产业链基石企业的历史告诉我们,美国政府项目、计划所需要的数量庞大的技术、服务和零部件往往依赖于与私人供应商签订供应合同,可以说,这些合同资助了私人企业的研发。一些私人供应商最终成为基石般存在,却是由自由市场发现的。
这一点在半导体领域最为明显(比如英特尔)。最早使用这些先进材料的,是美国空军和后来的 NASA。万维网——一个起源于欧洲大陆的精妙构想,最后在硅谷生态系统中获得滋养并商用、壮大,其重要因素之一也是购买力强大的美国消费市场。
IBM 是靠服务政府起家的典型,它让「山姆大叔」成了自己最大客户。50年代末,单靠部署 SAGE 系统的计算中心,就收获了公司电子计算收入的一半。不过,让 IBM 永远改变计算机产业的却是冒着倾家荡产风险推出的 IBM System/360 大型机系列。它满足了当时客户想要「可升级」或「能兼容」的系统的愿望,可以引入更庞大的机器,但仍运行同样的软件和外围设备,自此彻底改变企业和政府的工作方式,提高了生产力,并且使无数的新任务成为可能。
到了 20 世纪 60 年代末,System/360 已经成为计算机界的核心,成千上万的程序员只知道如何使用在它上运行的软件。System/360 迅速席卷 70% 的电脑市场,这一盛况持续至 1979 年。
20 世纪 80 年代,计算机产业从原本整合模式走向细分,软件作为一个产业发展起来。靠着榜上 IBM 这个姗姗来迟的巨头,微软让计算机产业生态再一次发生巨变。
IBM 进入个人电脑硬件领域时,很多应用程序开发者预测 IBM 个人电脑会销售强劲,纷纷开发兼容软件。而其他硬件制造商也觉得,最好生产能运行同样软件的电脑,也就是克隆 IBM 电脑。由此,微软开发的操作系统逐渐成为所有程序开发者事实上的行业标准。
就在微软醉心于个人电脑业务的同时,甲骨文创始人却只关心数据库。公司用从第一份活儿中挣来的钱开发出第一个商用数据库产品,称之为甲骨文(某种程度,产品创意也来自 IBM 的研究工作),用户是美国中央情报局。但真正在让甲骨文数据库产品成为 IT 世界灵魂的还是他们能够根据企业、政府用户需求,不断提升产品兼容性、易用性(这和 IBM System/360 很像),拓展产品行业覆盖面。
几十年来,这些起步于上世纪 80 年代的 IT 生态各成员不断积累知识和经验,改进产品,增加行业适配性,提升产品成熟度。同时,彼此软硬件兼容性也得到了更好磨合,这又进一步提升了系统替代的技术难度。
《经济学人》曾将现在的华为比喻为一个类似拥有大量研发资金的庞大创业公司网络。这是一种更加开放的双向模式,与过去研发——产品化——销售的单向端到端系统,迥然有别。「二次创业」路上,它还需要更多的机会,更长的时间