事件一:华为联合鹏城实验室开源2000亿参数中文预训练模型盘古α
由华为诺亚方舟实验室、华为中央软件院、鹏城实验室以及北京大学相关技术团队组建的中文超大规模预训练语言「盘古α」联合攻关团队,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架(https://mindspore.cn/)的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿超大参数中文预训练模型“盘古α”。
盘古α引入随机词序生成,增加预训练难度,提升模型能力。引入预测模块(Predictor),预训练阶段通过位置向量诱导输出。同时支持理解和生成任务,相比于GPT,盘古α模型设计阶段就考虑了其持续学习演化的能力,一是为了节省计算资源,还支持从顺序自回归模型过渡到随机词序自回归模型的增量训练,不同阶段的持续学习能力让模型具备随机词序的生成,具备更强的NLU能力。
不仅如此,盘古α在模型设计上还引入硬件亲和概念,是算法设计协同华为全栈式软硬件生态(MindSpore+CANN+昇腾910+ModelArts)性能和实力的一次完美亮相,牵引了超大规模自动化并行训练技术走向成熟,是国产全栈式AI基础设施支持2000亿级超大规模语言模型训练的第1次,验证了国产E级智算平台在软硬件协同优化、大规模分布式并行训练等核心关键技术的可行性,形成了国产自主可控的通用超大规模分布式训练基座及相关核心技术。
事件二:百度开源框架飞桨2.1版本发布万亿级图检索引擎
百度开源框架飞桨正式升级到 2.1 版本,并发布了大规模图检索引擎,将图的邻接表通过双层哈希切分方式存放到不同 graphserver 上,worker 端请求 graphserver 通过图检索引擎获得子图进行训练。经过 Intel CPU 环境上实测,该引擎不仅支持万亿边图模型训练,也能够很好地支持线性扩展。
据介绍,这项技术已在网易云音乐的主播推荐场景上进行了应用:大规模图检索引擎和飞桨分布式训练技术,成功支撑了语音主播业务的十亿级边的图模型训练。通过知识迁移,现在推荐系统可以有效解决冷启动问题,提高推荐场景中的有效播放率。其中在图神经网络是最近 AI 领域的热门方向,
随着大规模图学习在知识图谱和搜索推荐领域的广泛应用,大规模图模型训练愈加受到重视。飞桨提供了从分布式数据处理、图检索、前向反向图模型计算、多 server 参数更新的全流程通用分布式能力,形成了大规模图模型训练架构。
事件三:阿里达摩院开源深度语言模型体系AliceMind,横扫六大权威榜单
阿里巴巴达摩院宣布正式开源深度语言模型体系 AliceMind,包括通用语言模型 StructBERT、多语言 VECO、生成式 PALM、多模态 StructVBERT、结构化 StructuralLM、知识驱动 LatticeBERT、机器阅读理解 UED、超大模型 PLUG 等。此外,AliceMind 之后将围绕「预训练 + 精调」语言模型持续进行生态性的技术开源。
阿里巴巴达摩院作为最早投入预训练语言模型研究的团队之一,历经三年研发出深度语言模型体系 AliceMind, 在通用语言模型 StructBERT 的基础上,拓展到多语言、生成式、多模态、结构化、知识驱动等方向,能力全面。其中的模型先后登顶 GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO 在内的自然语言处理领域六大权威榜单,领先业界,相关工作论文被 AI/NLP 顶会接收,并在 6 月入选 2021 世界人工智能大会最高奖 SAIL 奖 TOP30 榜单。
事件四:安谋科技联合产业龙头企业成立ONIA,共同打造全球首个开源神经网络处理器指令集架构 NPU ISA
安谋科技联合产业龙头企业和组织发起成立了“智能计算产业技术创新联合体”(ONIA),共同打造全球首个开源的神经网络处理器指令集架构(NPU ISA),共建共享“中国首发,全球开源”的NPU生态系统。ONIA囊括了中国集成电路产、学、研等方面的代表力量,目前会员单位总数已突破100家。在2021年的乌镇世界互联网大会上,该NPU ISA一举摘得“世界互联网领先科技成果”奖。
ONIA要解决的行业难题是:
1、架构(ISA)自由--为不同应用场景提供可选和可定制化智能计算方案NPU处理器指令集的独立自主可控。
2、统一的标准--开源ISA,合力于标准的演进与软硬件生态开发,统一开放(开源)的工具链,SDK、软件库,降低总体智能计算应用成本。
3、技术演进--推动异构计算中的NPU技术演进,保持前沿创新、拓展NPU在智能计算应用领域的适用场景,有效满足新算力堆迭、分布计算、多域计算的需求。
当前,基于域架构(DSA)的NPU已经取得很大的成功,未来伴随新的多样化算力堆叠和多域计算的需求,需要下一代的域架构——超域架构(xDSA)来满足相应的要求和挑战, 并且通过融合多个域的方法解决碎片化的问题。智能计算产业技术创新联合体将推动开源NPU ISA对下一代xDAS的技术支持。
据介绍,Open NPU ISA核心技术是基础指令集与扩展指令集并存、定制差异化AI解决方案细粒度指令集、灵活支持各种常见AI模型编程高效、灵活的张量处理单元(TEC)、 重构配置信息、并行度、内存管理以及低耗能等维度优化、统一的上层系统软件,开源协作推动软硬结合迭代优化等。
事件五:北大团队自研AI框架“河图”(Hetu)正式开源
北大团队自研AI框架“河图”(Hetu)在Github上正式开源。 Hetu是一个兼顾创新性和可用性的分布式深度学习系统,由北京大学崔斌教授团队研发,这也是首个由国内高校自主研发的分布式深度学习系统。
现有的分布式深度学习系统,主要存在三方面不足:1、系统功能性,支持的通信架构、并行策略、一致性协议受限;2、系统易用性,分布式执行部署复杂,学习成本高;3、系统复杂性,计算与通信耦合程度高,不利于扩展和优化。
针对以上问题,河图进行了相应的优化设计。首先,河图支持所有主流通信架构、并行模式、同步协议以及常见优化方案,提供了更加丰富的功能,通用性更强;其次,河图支持半自动以及自动并行模式,硬件自适应感知最优分布式部署方案,部署更加便捷,提高了易用性;最后,河图支持统一分布式计算图中间表达,编译后适配多种通信算子,显著降低了系统架构的复杂性。 除此之外,河图团队围绕框架本身还开展了多方面的研究工作,包括机器学习/深度学习系统优化、AutoML、图机器学习、AI4DB等,发布了多个开源项目,不断丰富完善河图生态,相关成果被SIGMOD、VLDB、ICML、KDD、NeurIPS、ICDE、TKDE等国际顶级会议或期刊收录,并与腾讯、阿里巴巴、苹果、快手、中兴通讯等多家企业展开合作和应用,进行科研成果的转化落地。
事件六:DeePMD-kit v2.0.0发布 (DeePMD, Deep Potential Molecular Dynamics,深度势能分子动力学)
DeePMD-kit 项目发布v2.0.0大版本更新,对DeePMD-kit进行一次全面系统升级。 获得2020年戈登·贝尔奖后,并未停下前进的脚步,在原有成果基础上进行着不间断地发展迭代。作为AI+分子模拟领域的领跑者,DeePMD-kit v2.0.0将以开源的方式,为社区开发者和用户提供更灵活的硬件支持、更高效的训练推断、更丰富的模型架构。 同时,在DeepModeling社区内,DeePMD-kit正在与dpgen、dpdata、dpti、dpdispathcer、dpgui、dargs等多个项目形成一套开源软件矩阵,推动第一性原理精度的分子动力学解决更多来自物理、化学、材料、生物、地质等各个领域原子尺度的问题。
分子与材料模拟过去面临速度和精度不可兼得的问题,经验模型快而不准,底层模型准而不快;AI具有高维函数的表示能力,基于物理原则的AI模型可以有效兼顾效率和准确性,并具有传统AI不可比拟的可解释性;HPC将模拟的规模和效率推向极致,推动我们加快走完科学研究和技术创新之间的最后一公里。 DeePMD(Deep Potential Molecular Dynamics)是利用神经网络进行分子动力学模拟的方法,在达到第一性原理计算精度的同时,计算效率提升了几个数量级。DeePMD-kit是此方法基于Python/ C++的具体实现,旨在最小化构建基于原子间势能和力场的深度学习模型所需的工作,并执行分子动力学模拟。这为解决分子模拟中精度与效率的难题带来了新的希望。
DeePMD-kit v1.x 版本仅支持CUDA编程平台的GPU硬件。对于很多国内用户,由于数个国产高性能计算平台使用的是ROCm平台上的GPU加速部件,在这些超算上是无法使用DeePMD-kit的。为了解决这个痛点问题,DeePMD-kit v2.0.0中对AMD的ROCm平台进行了支持和优化。这项功能对用户是透明的,即用户无需对输入脚本和执行命令进行任何修改就可以在ROCm平台上运行。
DeePMD-kit v1.x 版本中,虽然推断任务(例如分子动力学模拟等)已经能在上千块GPU上并行执行,但是训练任务只能在一个GPU加速卡上进行。典型的训练任务需要的时间在1-7天,还有不少提升空间。在DeePMD-kit v2.0.0中,引入用户期盼已久的并行训练支持,在一次训练中能够同时使用多个GPU进行,在数据 batch 足够大的前提下,并行训练几乎可以完美扩展DeepModeling社区成员也正在将DeePMD-kit 接入到越来越多的分子动力学软件中。
除DP已稳定支持的LAMMPS、i-pi等软件外,对OpenMM、Gromacs的支持也充分实现。 DeePMD-kit v2.0.0 进行了系统重构,使得用户无需对算法有深入了解即可直接使用。在DeePMD-kit v2.0.0中,项目引入了三体嵌入这一新型描述子和原子类型嵌入功能。
事件七:浪潮发布“源1.0”开源开放计划,开放模型API、高质量中文数据集及相关代码
在北京举行的2021人工智能计算大会(AICC 2021)上,浪潮人工智能研究院正式发布“源1.0”开源开放计划,这一全球最大中文巨量模型将以开放API、开放数据集、开源代码等多种形式为业界提供开放合作,人工智能相关高校和科研机构、产业伙伴及智能计算中心用户可通过“源1.0”官网提出申请,经审核授权后即可基于“源1.0”模型探索算法创新以及开发各类智能化应用。
“源1.0”是全球最大规模的中文AI巨量模型,其参数规模高达2457亿,训练采用的中文数据集达5000GB,相比GPT-3模型1750亿参数量和570GB训练数据集,“源1.0”参数规模领先40%,训练数据集规模领先近10倍。“源1.0”在语言智能方面表现优异,获得中文语言理解评测基准CLUE榜单的零样本学习和小样本学习两类总榜冠军,测试结果显示,人群能够准确分辨人与“源1.0”作品差别的成功率已低于50%。
“源1.0”开源开放计划将首先面向三类群体,一是高校或科研机构的人工智能研究团队,二是元脑生态合作伙伴,三是智能计算中心。面向第一类群体,“源1.0”将主要支撑在语言智能前沿领域的算法创新和方向探索;面向第二类群体,“源1.0”将主要支撑元脑生态伙伴开发行业示范性应用,如智能文本服务、语言翻译服务、内容生产服务等等,探索语言智能产业落地的“杀手级应用”;面向第三类群体,“源1.0”将作为算法基础设施,与智能计算中心算力基础设施高效协同,支撑AI产业化和产业AI化发展。
“源1.0”开放开源计划项目包含开放模型API,开放高质量中文数据集,开源模型训练代码、推理代码和应用代码等。同时,浪潮人工智能研究院将和合作伙伴一起,共同开展针对国产AI芯片的“源1.0”模型移植开发工作。
为更好的支撑“源1.0”的开源开放计划,浪潮人工智能研究院将加强模型API和平台生态构建,开发支持高并发、高速推理的多种API接口,以支持各类用户对模型或功能的不同请求方式。同时,浪潮人工智能研究院也将大力运营“源1.0”开源开放社区,建立完善的开发反馈机制并加快模型迭代。
事件八: 腾讯开源超大预训练系统派大星,使用异构内存管理方法攻坚 “GPU内存墙”
腾讯微信AI团队联合Tencent NLP Oteam于GitHub上发布开源项目派大星“PatrickStar”。该开源项目将聚焦解决GPT、BERT等超大模型训练时产生的“GPU内存墙”问题,使用更为创新的异构内存管理方法,让相同配置的机器能够训练更大的模型,以更节能环保的方式让预训练模型普惠每位NLP社区用户。经测试结果显示,派大星性能表现优于微软DeepSpeed,在不到5000元价位的个人游戏电脑上,即可训练一个7亿参数的GPT模型。
以GPT、BERT为代表的预训练模型(PTM)是自然语言处理(NLP)领域的核心技术,但由于GPU硬件的存储空间有限,PTM的可训练规模难以突破,专业人员称之为“GPU内存墙”,同时, PTM预训练的过程具备高耗能、高成本、高碳等弊端——往往训练一次万亿级别的预训练模型要烧掉154万人民币,消耗的电能制释相当于数十辆小汽车从出厂到报废的碳排放总和。
为攻克该痛点,腾讯微信AI团队联合TencentNLP Oteam从头搭建了派大星。它通过细粒度的方式管理模型数据,更有效使用了异构内存空间,进一步突破PTM模型规模的极限。同时,派大星的设计比同类方法占用更低内存使用,减少了CPU和GPU之间数据搬移开销,从而显著提升了计算资源的利用率。并且,派大星可以和多种并行训练方式正交使用。比如,派大星使用微软提出的零冗余优化器来实现单机多卡的数据并行。
实验结果表明,派大星将模型规模上限在目前最佳方案DeepSpeed的基础上提升了 1.5 倍,并且展现了明显高于DeepSpeed的计算效率。
事件九:华为欧拉操作系统,百万行代码全部贡献开源社区
操作系统产业峰会 2021 在北京举行。会上,华为携手社区全体伙伴共同将欧拉开源操作系统(openEuler)正式捐赠给开放原子开源基金会。
这标志着欧拉从创始企业主导的开源项目彻底转变成为社区自治的新生态,未来将有望汇聚更多力量,以更加开放的模式整合全球参与者。
欧拉是华为提出的「数字基础设施操作系统」,最早于 2019 年被搭载在鲲鹏 Arm 服务器上,直到 2020 年 1 月被华为正式开源并更名为 openEuler。当前版本的欧拉可广泛部署于服务器、云计算、边缘计算、嵌入式等各种形态设备。华为表示,该操作系统的应用场景覆盖 IT(Information Technology)、CT(Communication Technology)和 OT(Operational Technology)领域,可实现统一操作系统支持多设备,应用一次开发覆盖全场景。
「欧拉操作系统开源以来获得了业界的积极响应,已发展成为国内最具活力的基础软件生态体系,」华为常务董事,ICT 基础设施业务管理委员会主任汪涛表示。「openEular 开源以来已经吸引近万开发者,300 家企业,形成了可观的开源社区,系统规模商用 60 多万套,有望在明年实现中国服务器领域新增市场份额第一。」
需要注意的是,这次开源不同以往:在昨天的活动中,华为宣布华为将欧拉开源操作系统代码、品牌商标、社区基础设施等相关资产全部捐赠给了开放原子开源基金会,这是目前国内唯一一家开源基金会。
本次欧拉捐赠的内容包括:
代码和软件包:数百万行华为自研代码版权和知识产权许可,超过 8000 个经华为和社区验证的软件包。
创新项目:华为创新的 iSula、A-Tune、Stratovirt、secGear 项目。
商标:openEuler 以及 iSula、A-Tune、Stratovirt、secGear 项目的中英文商标品牌共 30 个。
域名:openeuler.org 及其子域名,和 openeuler.io 及其子域名,共 4 个。
社区基础设施:构建服务与测试体系、代码托管、社区运营平台等社区基础设施。
在开源建设方面,华为将全力支持开放原子开源基金会,与合作伙伴和行业组织构建中国开源体系基础能力。在人才发展方面,华为计划与合作机构共同发布欧拉人才发展加速计划。
事件十:百度多语言预训练模型ERNIE-M 正式开源
百度文心 ERNIE-M正式开源。2021 年伊始,百度在自然语言处理领域取得最新突破,发布多语言预训练模型 ERNIE-M。ERNIE-M 通过对 96 门语言的学习,使得一个模型能同时理解 96 种语言,该项技术在 5 类典型跨语言理解任务上刷新世界最好效果。在权威跨语言理解榜单 XTREME 上,ERNIE-M 也登顶榜首,超越微软、谷歌、Facebook 等机构提出的模型。经过一年的筹备,2021年底基于飞桨实现的 ERNIE-M 模型终于正式开源。
ERNIE-M 基于飞桨 PaddlePaddle 框架训练,该模型构建了大小为 25 万的多语言词表,涵盖了 96 种语言的大多数常见词汇,训练语料包含了汉语、英语、法语、南非语、阿尔巴尼亚语、阿姆哈拉语、梵语、阿拉伯语、亚美尼亚语、阿萨姆语、阿塞拜疆语等 96 种语言,约 1.5 万亿字符。 ERNIE-M 的学习过程由两阶段组成。第一阶段从少量的双语语料中学习跨语言理解能力,使模型学到初步的语言对齐关系;第二阶段使用回译的思想,通过大量的单语语料学习,增强模型的跨语言理解能力。