4 月 9 日,一年一度的「浪潮云数据中心合作伙伴大会(IPF 2020)」如期举行。受到疫情的影响,这也是 IPF 大会首次通过线上直播的方式举办大会。
在过去的一段时间里,新一代信息技术在抗疫过程中发挥了巨大作用,技术对人们生活的影响也比过往的任何时候都要深刻。从疫情动态汇总、同乘同航确诊查询、到网课辅导、在线问诊、办公协同,无论线上线下,信息技术都展示出了对社会智慧进化的迅速推动作用。
浪潮集团执行总裁、首席科学家王恩东在大会最开始的演讲中提到:「在各种智慧服务和新型基础设施的背后,支撑智慧化转型的正是以云计算、大数据、人工智能为核心的智慧计算。」
智算中心是智慧时代最主要的计算力生产中心和供应中心,它以融合架构计算系统为平台,以数据为资源,能够以强大算力驱动 AI 模型来对数据进行深度加工,源源不断地产生各种智慧计算服务,并通过网络以云服务形式向组织及个人进行供应,正成为经济社会运行的重要基础设施。浪潮在智算中心建设上,则以「开放标准、集约高效、普适普惠」为标准。
王恩东提出:「智算中心是我们这个时代的动力源。发展智算中心,应该牢牢抓住两大发展方向——人工智能和开放计算。」一直以来,浪潮都将人工智能作为重点,全力发展领先的计算力。在大会上,王恩东也系统介绍了浪潮智算中心 AI 算力的作业环节:
首先,生产算力。浪潮拥有业内最强最全的 AI 计算产品阵列,为合作伙伴提供全线定制化的人工智能芯片和加速卡,覆盖了从训练到推理、从语音到语义、从云到 AI 加速等各类相关的 AI 应用场景。
浪潮 AGX-5 是目前全球最高性能的 AI 计算主机之一,能够实现单机计算性能每秒两千万亿次的强大算力输出;AGX-2 是目前单位空间内 GPU 计算密度最高的服务器,是全球首款在 2U 空间内高速互联集成 8 颗最高性能 GPU 加速器的服务器;FP5295 可支持 CPU-GPU NVLink 互联,实现共享共存。
浪潮旗下的人工智能服务器 NF5488M5 是目前适用于 transformer 性能最好的 AI 服务器,首次在 4U 空间内实现了 8 颗目前性能最强的 NVIDIA Tesla V100 Tensor Core 32GB GPUs 的高速互联,尤其适合于计算设备之间需要高速互联网的 NLP 训练场景。在 Transformer 模型训练过程中,以 GLUE 基准训练达到 80.4% 作为基准测试,NF5488M5 上所能实现的性能比其他同类的 AI 服务器性能分别提升了 67% 和 31%。
此外,浪潮超大规模 AI 计算框架 LMS,实现了单 GPU 超大算力支撑,支持 70 亿参数的 NLP 智能语言模型训练,相比主流 Bert 模型参数量提升 20 倍。
大会还发布了全球首款 AI 开放加速计算系统 MX1,基于 OCP 社区 OAM 开放标准设计,互联带宽 224Gbps,理论最高带宽 896Gbps。产品支持 12V 和 54V 供电输入,高带宽和双供电方案使得该产品可同时支持多种 AI 加速器,从而极大提升了用户的 AI 基础架构部署效率。同时 MX1 单节点设计可支持 8 颗 AI 加速器,最大可纵向扩展 32 颗 AI 加速器,实现对超大规模神经网络模型并行计算场景的支持。
第二,聚合算力。在训练方面,浪潮优化了 TensorFLow 框架,在全球首次实现在 512 个 GPU 卡上 90% 的扩展效率,打破了 Imagenet 训练集训练时间全球最快纪录。在推理方面,浪潮针对高并发推理集群进行架构优化,构建了高性能的 NVMe 存储池,深度优化了软件栈,性能提升了 3.5 倍以上。
针对当前云数据中心建设中广泛存在的 CPU 高消耗等问题,浪潮推出了面向云中心智能网络加速的产品方案 N20X,实现对主机网络、存储和计算负载的卸载到网卡,让主机的计算存储网络实现有效的加速,以此实现对云数据中心网络和算力资源的保障。
第三,调度算力。浪潮在去年 4 月发布的 AIStation 计算资源平台支持 AI 训练和推理,可以提供 AI 模型开发和部署一站式交付,是业界功能最全的 AI 管理平台,帮助合作伙伴完成一站式模型开发和部署。
目前,AIStation 推理平台发布,旨在帮助合作伙伴更好地完成模型的部署和推理,提供多模型计算结果,保证推理结果的准确性和可信度,提速整体 AI 生产交互过程。
最后,释放算力。在「产业 AI 化」的推进过程中,传统企业做 AI 转型往往会面临着缺乏专家和技术的困境,浪潮自动机器学习平台 AutoML Suite 则为各行各业提供了一个智能化工具。
AutoML Suite 共有三大技术引擎:AutoNAS、AutoTune、AutoPrune。AutoNAS 能够帮助从零来构建网络模型,快速实现 AI 模型和数据的匹配。AutoTune 自动实现一个超参调整功能,目的在于将人类专家从烦琐的手工调参工作当中释放出来。AutoPrune 能够对网络进行高效的压缩,压缩后的模型在精度保持不变的情况下,保持非常好的性能,使之达到生产部署的要求。在 RestNet50 上通过 AutoPrune 压缩后,压缩后模型的计算量从 4GFLOPS 降低到 1.52 GFLOPS,推理性能提升两倍以上。
AutoML 是当下非常热门的研究领域,而浪潮面向行业伙伴推出的 AutoML Suite 有效降低了 AI 应用门槛,同时还支持本地化和云端部署,已在智慧城市、智慧车站等多个领域正式应用。
浪潮 AI&HPC 产品线总经理刘军用四句话来归纳浪潮智算中心的总路线:「浪潮提供了最领先的算力机组来生产算力,通过更敏捷的数据中心来聚合算力,通过高效的调度算力为产业 AI 提供更多创新的可能,同时通过释放算力来快速落地进化 AI。浪潮将始终致力于创新 AI 计算,为新基建提供更多原动力。」