2019/05/10 10:54

百度王海峰：新一代人工智能技术如何促进产业智能化

在2019全球人工智能产品应用博览会主论坛上，百度高级副总裁、深度学习技术及应用国家工程实验室主任王海峰发表《新一代人工智能技术与应用》主题演讲，表示“新一代人工智能技术正在越来越深入地与产业相融合，促进产业智能化。”

王海峰是人工智能技术研究及产业化应用的领军人物，在国内外学界和工业界享有盛誉。他领导的百度人工智能，布局全面，技术成果业界领先，并逐步在各行各业落地应用，他也由此被评价为“既有前瞻视野，又擅长将人工智能技术与实际应用相结合”的科学家。

王海峰表示，我们正身处以人工智能为核心驱动力量的第四次工业革命浪潮中，国家高度重视，认为人工智能是新一轮科技革命和产业革命的重要驱动力量。美国、欧盟、日本等也在纷纷布局人工智能，从国家战略层面推动人工智能技术快速发展和应用。

作为国内投入最早、技术最强、布局最完整的领军AI企业，百度在AI技术领域保持领先优势，积极建设人工智能开源开放平台，推动应用落地，促进产业智能化的发展。

在数据、算法和算力三要素的共同作用下，尤其是深度学习的突破，人工智能技术取得巨大进步。

语音识别的准确率不断提升，在很多场景中已经超过人类。王海峰展示了基于百度语音识别技术的百度输入法“中英自由说”能力，这是目前唯一实现高精度中英文混合语音输入的产品。语音合成也取得巨大进展。百度近期上线的并行WaveRNN模型，解决了WaveNet模型需要大量计算资源的问题，合成效果大幅提升，同时能够满足在线的实时需求。结合麦克风阵列、低功耗语音芯片、高精度唤醒，以及模型波束等技术，百度领先的语音技术，应用于智能家居、车载设备、手机等，软硬结合，发挥出越来越大的价值。

计算机视觉技术也越来越实用化，形成适用于不同应用场景的技术矩阵，如图像检测、细粒度图像识别、图像处理，以及文字识别、人脸/人体识别、人体追踪、视频理解、图像生成等。比如门禁、支付等场景中的“刷脸”技术、爱奇艺等视频平台广泛应用的视频理解等技术。近期业界热议的图像生成技术，可以合成人说话的形象及声音，“AI虚拟主持人”正是基于这一技术得以登上荧幕。

在认知技术上，百度建立了完整的、包含知识图谱、语言理解、语言生成等在内的语言和知识技术布局。

王海峰介绍，百度构建了世界上最大的多元异构知识图谱，在包含数亿实体、千亿级事实，能够满足90%用户需求的实体图谱的基础上，针对不同的应用场景和知识形态建立起关注点图谱、行业知识图谱、POI图谱、事件图谱等多种知识图谱，“知识图谱与深度学习技术相结合，会对人工智能进一步发展产生巨大的推动作用。”

自然语言处理技术也在持续创新突破。如百度近期发布的基于知识增强的ERNIE 模型，通过建模海量数据中的实体概念等先验语义知识，学习真实世界的语义关系。这种融合知识的语义建模大幅增强了模型的语义表示能力，在包括语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上的多个公开中文数据集上，均取得了优于谷歌BERT模型的效果。百度的语言与知识技术已经广泛应用于机器翻译、智能搜索、智能写作等产品中。

综合领先的人工智能技术，用户可以体验到流畅、便捷的多模态交互。用说话的方式搜索想了解的信息，返回的答案准确、直观，可以听到和看到。进一步地，融合语音、视觉、知识图谱和语言理解等技术，人工智能核心技术发展进入“多模态深度语义理解”阶段。以基于知识图谱的视频语义理解为例，结合知识图谱，从视频中抽取结构化语义知识，进行关联与计算，形成对视频的结构化理解。

基于完整的技术布局和领先的AI核心技术，百度构建了全体系、功能丰富的人工智能开源开放平台，包括算法的开源和数据的开放、通用及定制AI能力的开放、硬件开放平台、端部署平台、私有化部署平台等，从而支撑第三方服务和行业应用。其中，深度学习框架，下接芯片、大型计算集群，上承各种业务模型、行业应用，尤为重要，相当于“智能时代的操作系统”。百度打造了国内唯一完整、全套的深度学习平台PaddlePaddle，通过包括核心框架、工具组件和服务平台在内的一整套框架和服务，帮助广大开发者和企业利用工具化、平台化的方式，进一步降低深度学习应用门槛，推动产业智能化变革。

不同的行业，都在应用人工智能技术提升质量和效率，加速智能化进程。例如，百度地图基于深度学习技术实现路线规划和时间预估，方便用户的出行。深度学习应用于国家重大工程用地的变化情况检测，辅助政府对土地资源的利用进行有效管理与控制，让AI技术利国利民。在钢铁行业中，基于深度学习预测、大数据分析和图像识别打造的智能钢包管理系统，实现了对运转温度、压力等数据的实时采集和分析处理，帮助钢铁企业推进钢包管理的智能化和自动化。

新一代人工智能技术蓬勃发展，已经在逐步变革人们的生产、生活方式，越来越多地与传统产业相结合，推动产业智能化的持续发展。王海峰表示，百度将持续推动人工智能发挥更大的价值，为促进国家社会经济发展和各行各业的智能化升级贡献力量。

产业百度王海峰

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

数据分析技术

数据分析是一类统计方法，其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系，并绘制出统计信息图，以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据，以便弄清哪些是同质的，从而更好地了解数据。数据分析可以处理大量数据，并确定这些数据最有用的部分。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

语音合成技术

语音合成，又称文语转换（Text to Speech）技术，是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

来源：张斌,全昌勤,任福继. 语音合成方法和发展综述

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

命名实体识别技术

命名实体识别（NER）是信息提取（Information Extraction）的一个子任务，主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别，如在招聘信息中提取具体招聘公司、岗位和工作地点的信息，并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注，根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此，命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督（supervised）、半监督（semi-supervised）和无监督（unsupervised）三类。有监督学习包括隐形马科夫模型（HMM）、决策树、最大熵模型（ME）、支持向量机（SVM）和条件随机场（CRF）。这些方法主要是读取注释语料库，记忆实例并进行学习，根据这些例子的特征生成针对某一种实例的识别规则。

来源：David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification

操作系统技术

操作系统（英语：operating system，缩写作 OS）是管理计算机硬件与软件资源的计算机程序，同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

来源：百度百科

大数据技术技术

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

图像生成技术

图像生成（合成）是从现有数据集生成新图像的任务。

来源：paperswithcode

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

图像处理技术

图像处理是指对图像进行分析、加工和处理，使其满足视觉、心理或其他要求的技术。图像处理是信号处理在图像领域上的一个应用。目前大多数的图像均是以数字形式存储，因而图像处理很多情况下指数字图像处理。

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

麦克风阵列技术

麦克风阵列(Microphone Array)，从字面上，指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样并处理的系统。早在20世纪70、80年代，麦克风阵列已经被应用于语音信号处理的研究中，进入90年代以来，基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”，这项技术的重要性显得尤为突出。

来源：百度百科

爱奇艺机构

2010年4月22日正式上线，推崇品质、青春、时尚的品牌内涵如今已深入人心，网罗了全球广大的年轻用户群体，积极推动产品、技术、内容、营销等全方位创新。企业愿景是做一家以科技创新为驱动的伟大娱乐公司。于2018年3月29日在纳斯达克上市。

http://iQIYI.COM