2020 年,人工智能商业化落地全面加速。作为国内 AI 领先者的百度,其长期高强度技术投入正在逐渐取得成果。刚刚,在「WAVE SUMMIT 2020」深度学习开发者峰会上,百度飞桨又一次宣布了多项全新发布和重要升级。「从去年秋季深度学习开发者峰会至今的半年时间里,飞桨有了迅速发展:累积开发者数量已超过 190 万,服务企业数量达到 84000 家;发布模型数量已超过 23 万个,」百度 CTO 王海峰大会开场时表示。这些成绩之上,是飞桨对于国内产业智能化升级做出的贡献。在新冠疫情期间,百度也进入了抗疫一线,提供了口罩检测和人脸识别、社区疫情防控系统、疫情问答机器人、基于 CT 影像的肺炎筛查等等 AI 能力。在峰会上,王海峰放出了最新的飞桨版图。飞桨开源深度学习平台,包含核心框架、基础模型库、端到端开发套件与工具组件。随着企业应用的需求越来越丰富和强烈,飞桨升级了产品架构,推出飞桨企业版,助力各个企业进行 AI 创新。现在,百度飞桨深度学习平台由飞桨开源深度学习平台和飞桨企业版两大版块构成,百度集团副总裁吴甜表示,飞桨开源深度学习平台将持续保持开源,致力于为产业、学术、科研创新提供基础支撑。飞桨总架构师于佃海向我们介绍了飞桨框架的设计理念,以及推动飞桨迭代发展的两个驱动轮:产业实践的需求和用户体验的提升。产业实践的需求和打磨是最原生的驱动轮,这体现的是飞桨对性能、大规模训练和部署能力的极大关注。
用户体验提升是另一个重要驱动轮,飞桨关注用户编程界面的优化和基础功能建设的完善。这种理念,为飞桨提供了持久广泛的发展动力。飞桨也因此将高效兼顾灵活易用作为框架设计和发展的重要原则。
作为国内最早开源的深度学习框架,飞桨的流行程度一直在提升,而百度也在不断发展飞桨,在其中加入人工智能领域最先进的技术。时隔半年,百度飞桨开源深度学习平台带来 7 项开源全流程工具新产品发布,百度深度学习技术平台部负责人马艳军在峰会中进行了详细介绍。这 7 项新产品包括端到端图像分类开发套件 PaddleClas、端到端语音合成开发套件 Parakeet、前端推理引擎 Paddle.js、开发训练部署全流程开发工具 PaddleX 等。此次,飞桨平台官方模型库新增了 39 个算法、3 个任务、3 种端到端开发套件,方便开发者进行低代码二次开发。图像分类是计算机视觉中的一类常见应用,从手机的智能相册,到工业领域的自动分拣都离不开这项技术。这一次,百度发布了全新的端到端图像分类开发套件 PaddleClas,可以提供工业级的分类模式,包括 23 种分类网络及训练配置、117 个预训练模型和性能评估,以及 10 万类图像分类预训练模型。在深度算法优化方面,PaddleClas 可以实现 3% 的 SSLD 知识蒸馏效果提升以及 82.4% 的识别准确率(ResNet50_vd)。此外,它还可以提供工业级的部署工具,包括服务器高速推理集成、移动端推理部署 、模型服务化部署等。可以看出,不管是在服务器端还是在移动端,PaddleClas 在分类精度和性能层面均实现了大幅度的提升。Parakeet 是本次飞桨平台全新发布的第二款开发套件。值得注意的是,在模型层,Parakeet 使用了一款百度自研声码器 WaveFlow。马艳军介绍,WaveFlow 的特点就是「快、轻、简」。WaveFlow 可以 40 倍实时的速度合成 22.05 kHz 的高保真音频,同时参数量更少,仅 5.9M 个参数,比 WaveGlow 小 15 倍,它还可利用最大似然直接训练,方便二次开发。说到深度学习,我们脑海中首先浮现的语言大多是 Python,这也是多数深度学习框架支持的语言。但随着深度学习应用范围的扩大,使用其他编程语言工作的开发者也需要用到飞桨等深度学习框架,这就对飞桨提出了新的要求。为此,百度飞桨团队开源了国内首个 JavaScript 深度学习库——Paddle.js。它支持低延迟、数据安全的本地计算。在 JavaScript 环境中,用户可免安装、跨平台使用,可应用于商品识别、AR 游戏以及虚拟穿衣试戴等场景。PaddleX 是一款开发、训练、部署全流程开发工具,具有打通全流程、可快速集成、融合产业实践、支持多端部署等优点。PaddleX 可以支撑各类 AI 应⽤的快速开发,大幅提升巡检效率、开发效率,减少人类资源的浪费。除以上发布外,飞桨开源深度学习平台还在核心框架层、基础模型库、端到端开发套件、工具组件四个层面进行了全面的升级更新。在推理部署层面,PaddleSlim、Paddle Inference、Paddle Serving、Paddle Lite 均进行了升级,其中 Paddle Inference 新增了多语言 API 接口,便于开发者进行集成开发。对应自然语言处理、计算机视觉、推荐、语音四大领域,此次飞桨平台的 4 个基础模型库也新增了多项算法和任务支持类型。其中 PaddleNLP 优化了多种算法和任务类型,提供更完善的 NLP 方案;PaddleCV 新增 3D 视觉及相关算法;PaddleRec 新增了支持融合、内容理解 2 大任务,覆盖主流推荐场景所需功能;PaddleSpeech 新增了 5 种高精度语音合成算法。ERNIE:持续学习领域知识,领域理解能力全面提升在开发套件方面,作为基于飞桨开源的持续学习的语义理解框架,ERNIE 此次进行了多处升级。在领域模型方面,飞桨预发布了 ERNIE Law 法律模型和 ERNIE Health 医疗模型两款模型;在任务模型层面,发布了 ERNIE Gen 生成模型。相比于 ERNIE 2.0 中文,ERNIE Gen 中文在知识库问题生成、阅读理解问题生成、文档摘要生成、新闻标题生成的 4 个中文权威任务集合上,效果平均提升 2.47%。此外,在较小训练数据规模(16G)下,ERNIE Gen 英文在摘要生成、问题生成、对话生成、生成式问答等英文权威任务集合中实现 SOTA 水平。目标检测开发套件 PaddleDetection 全新升级目标检测是机器视觉领域的核心问题之一。去年,百度开源了 PaddleDetection 目标检测统一框架,用户可以方便、快速地搭建出各种检测框架,构建强大的应用。今天,PaddleDetection 迎来了全新升级:在算法丰富度层面,PaddleDetection 新增了 101 个预训练模型和 10 余套算法,含 YOLOv3、SSD、RCNN 等,此外还结合了移动端场景深度优化;
在模型精度层面,升级后,基于 COCO 数据集的高精度预训练模型精度 mAP 可达到 53.3%,实时预训练模型精度 mAP 可达到 43.6%;
在模型速度层面,PaddleDetection 速度超越同类产品 2.6 倍(YOLOv3 训练),可实现 3.5 倍移动端模型加速(YOLOv3 预测)、2 倍人脸检测预测加速。
在产业实践层面,PaddleDetection 在智慧交通领域的 mAP 要比同类产品高出 4%,在工业质检方面高出 3%。
一直以来,PaddleDetection 在产业实践方面有着广泛的应用。在使用 PaddleDetection 替代人工进行森林巡检后,效率提高了 200%;疫情期间,PaddleSeg 应用于肺炎 CT 影像分析 AI 模型,病灶识别的精准度可达到 92%,召回率达 97%,研发工期缩短 30%。工具组件层面也是本次飞桨平台升级内容数量最多的部分。预训练模型应用工具 PaddleHub 新增了超大规模图像分类、目标检测模型,支持飞桨 Master 模式升级;全面集成 Paddle Inference 原生推理库,预测性能提升 50% 以上;同时开放了 PaddleHub 预训练模块制作流程,支持开发者贡献模块至 PaddleHub 平台;新增 NLP 文本审核模型,支持高性能文本向量表示服务。深度学习可视化平台 VisualDL 发布了 2.0 版本,API 全面升级,性能大幅提升,并对界面及功能进行了整体优化;自动化深度学习工具 AutoDL 新增了 AutoDL Transfer DELTA 算法,通过精准知识蒸馏算法,有效提升深度迁移学习的效果AIStudio 学习与实训平台升级了 Notebook 环境,新增了覆盖人工智能各领域的 140 多个精品项目以及多个优质公开课,保障开发者快速掌握人工智能核心开发技术。此外,飞桨还在强化学习、联邦学习、图神经网络等方面进行了升级。近年来,国内外各大科技公司都在量子计算领域发力。在《Analytics Insight》杂志公布的 2020 全球十大量子计算公司名单中,国内只有两家公司入选,其中一家便是百度。早在 2018 年 3 月,百度就成立了量子计算研究所,开展量子计算软件和信息技术应用业务研究,并邀请了悉尼科技大学量子软件和信息中心创办主任段润尧教授出任所长。百度量子计算的 QAAA 规划:聚焦于量子算法、量子人工智能以及量子架构。其中量子算法是发挥量子计算优势的理论基础,量子人工智能则代表了量子计算实际落地最重要的一些软件技术工具,而量子架构则实现量子软硬件互连,最终这三者将融合在百度量子计算平台提供给合作伙伴和用户。在本次峰会上,段润尧也带来了他们的最新研究成果——量桨(Paddle Quantum)。量桨是基于百度飞桨研发的量子机器学习工具集,飞桨也成为国内首个支持量子机器学习的深度学习平台。量桨建立起了人工智能与量子计算之间的桥梁,可以快速实现量子神经网络的搭建与训练,同时还提供多项前沿量子应用。有了量桨,量子计算领域的研究人员就可以用它进行量子人工智能的研发,深度学习爱好者也有了一条学习量子计算的捷径。百度飞桨也因此成为国内首个也是目前唯一一个支持量子机器学习的深度学习平台。易用性:通过量桨,开发者可以轻松搭建简洁的量子神经网络,也可以根据丰富的量子机器学习案例一步步组建出自己喜欢的模型;
通用性与拓展性:开发团队在飞桨中系统地扩展了包括复数变量、复数矩阵乘法在内的多项底层功能,这使得量桨可以完美地支持量子电路模型,从而也支持通用量子计算相关的研究;
特色工具集:针对组合优化问题的求解、量子化学系统模拟等关键方向提供了专门的强大工具集,还推出了一些原创性的量子机器学习模型。
量桨的量子机器学习开发工具包括:量子开发工具集,量子化学库,以及一系列优化工具。与此同时,量桨还提供了量子机器学习、量子化学模拟以及量子组合优化这三大核心量子应用。比起业内的其他实现方法,量桨提供的方法具有部署灵活的特点,同时可以将量子计算网络的层数减少 50%,更具有可行性。
在发布会上,百度飞桨还发布了 PPDE(飞桨开发者技术专家)计划,号召全球 AI 开发者与百度飞桨一起共建开放的深度学习开源社区。PPDE 是飞桨开发者技术专家的荣誉认证体系,由飞桨开发者技术专家、飞桨高级开发者技术专家和飞桨资深开发者技术专家组成。无论是热爱编程开发的资深程序员、技术社区的引领者,还是顶级开源软件的 committer、新兴科技公司创始人或 CTO,这些开发者技术专家都可以通过线上线下形式在此机制下展开交流。百度飞桨与 Linux Foundation 开源大学合作推出了国内首个深度学习工程师联合认证,这一认证将于 6 月份开放考试。
昨天,百度还刚发布了 2020 年第一季度的财报。虽然因为新冠疫情的影响,今年百度的第一季度收入同比下降 7%,营收 225 亿元,但净利润 (Non-GAAP) 升至 31 亿元,同比增长 219%。从不同业务上看,百度的移动生态持续巩固,小度助手、Apollo 和智能云均实现了健康增长。人工智能业务的增长已在为百度的发展贡献越来越多的力量,而技术领先的飞桨,更将推动各行业人工智能基础设施建设的进程。