2018/11/05 10:38

腾讯俞栋：定义下一代智能人机交互，从目标、挑战到实现路径

语音识别及深度学习领域专家、腾讯AI Lab副主任及西雅图实验室负责人俞栋博士，在2018年腾讯全球合作伙伴大会上展示了腾讯AI正在推进的跨领域前沿研究：下一代的多模态智能人机交互。以下是有补充的演讲全文，介绍了人机交互的历史与目标、下一代智能人机交互的优势与挑战，及腾讯AI的解决方案。

人机交互的未来

就是多模态智能人机交互

人机交互的历史

在计算机的发展历史上，随着技术的进步，发生过几次大的交互模式的演进。最近的两次大家比较熟悉的转变是从以鼠标/键盘为主的交互模式转换为以触摸和语音为主的交互模式。

人类创造计算机的最早目的是帮助自己处理一些繁琐的计算任务，比如弹道计算；那时候，只有经过训练的专业人员才有能力向计算机输入信息和阅读计算机输出的结果。随着硬件和软件技术的发展，计算机的速度越来越快，功能也愈渐强大，人与计算机的交互方式也越来越多样化，并日益向对人类而言更自然更便捷的“以人为中心”的方向发展。实际上，在计算机的发展历史上已发生过几次显著的交互范式演进。

1946 年正式投入使用的世界第一台通用计算机 ENIAC 的输入和输出都在卡带上进行，这种人机交互方式需要对卡带进行加工（打孔或涂绘等），从而为计算机提供二进制程序，因此速度缓慢。60 年代中期，命令行界面出现了，计算机使用者可以通过键盘直接输入程序并在屏幕上获得反馈，各种编程语言也顺势发展。1968 年，Douglas Engelbart 设计的 NLS 系统将鼠标、指针、超文本和多窗口界面整合进了计算机系统中，奠定了我们当今的主流桌面计算机的基于图形界面的形式基础。

人机交互的未来

现在，智能手机的普及已经让人们习惯了基于触摸屏的交互方式，现在几乎所有有人的地方都有“点手机”的身影。在语音识别和自然语言处理技术的推动下，基于语音的交互方式也正在迅猛发展——智能语音助手已经成为了很多智能手机的标配，智能音箱也正在进入越来越多的家庭。此外，基于计算机视觉乃至脑波分析的交互技术也已经出现，比如通过人脸跟踪控制系统或通过检测玩家的表情来个性化地调整视频游戏的难度和剧情等。

交互模式的演进主要还是为了降低交互的困难程度，使更多人能够使用计算和智能设备，也使用户能够方便地使用更多形态和数量的设备。显而易见，每一次交互范式的转变都带来了新的用户群体、新的应用场景、新的商业模式、和新的想象空间。比如触摸方式的普及使很多老年人也会使用智能设备，语音技术的进展则使得我们可以远距离控制设备，极大地增加了可交互设备的数量。但是，新型交互方式并不会在所有场景中都完全替代已有的交互方式；在可预见的未来里，程序命令、图形界面和语音等交互方式都将有各自更为擅长的应用场景，基于智能处理技术的多模态交互将成为人机交互发展的未来。

多模态智能人机交互系统的优势

多模态的智能人机交互相比单模态的传统交互方式有几个优点：

优势1：交互自然

最明显的优点是交互的自然度和自由度，用户可以根据场合以及对不同模态的熟悉度来选择一种或多种方式与设备交互，比如用户可以用手势或语音或者结合手势和语音来表达同一意思。

优势2：信息融合

在很多场景下，单一的信息源往往不足以保证系统的准确率和鲁棒性，比如在高噪音场景下，语音信号会受到很大干扰从而影响语音识别的准确率。然而通过多模态信息的融合，比如同时基于手势、口型或面部表情我们可以获得更精确的语义信息。不但如此，多模态信息融合也可以使系统更准确地辨识用户、情感、场景、和发声人位置，从而降低交互的成本。

优势3：互为监督

不同模态之间可以互相提供关联和监督信息。不同模态之间的关联是语义理解的一个很重要的组成部分，比如当我们提到一个有实体的概念时我们往往会联想到这个实体的形状、声音、运动方式等诸多方面，又比如当我们听到咣当一声时会联想到门被关上了，并且头脑中会出现门的形象。这些都是通过多模态之间的关联学习到的。不同模态之间的关联和监督信息还能够帮助系统在运行过程中持续做自适应学习，比如当系统同时具备麦克风阵列和摄像头阵列时，麦克风和摄像头可以互相提供校准信息。

优势4：多维感觉

这对用户和系统都很重要，因为人在交互过程中，除了语言信息外，还会使用很多副语言信息和非语言信息，例如态度、情感、意图等。这些信息很多是通过面部表情和肢体语言来辅助表达的。多维感觉对用户尤其重要，因为用户可以在多模态交互系统中从视觉、听觉、触觉等多个维度来感知和体会智能设备想要表达的情感和语义。

智能人机交互系统的终极目标

智能人机交互系统的终极目标是使人与机器交互和人与人交互一样轻松自然。我们认为从以人为本的角度来看，理想的系统应该具有几个重要的指标。

目标1：不用学就会

最重要的指标就是不用学就会，如果用户愿意学习一些不熟悉的交互方式，他/她会有更多的选择，但是如果他/她不愿意学的化也能以其最自然的方式比如听觉和视觉与机器交互。

目标2：多模态交互

人与人之间的交互就是多模态的，我们可以用语言、表情和肢体动作等方式传达我们的想法和意图，因为这些方式对人而言是最自然的。基于刚刚提到的多模态交互的优势我们认为这样的系统也应该是多模态的，这里多模态包含输入的多模态和输出的多模态，而由于智能设备可以提供屏幕输出，从输出的效率来说它们甚至可能比人更为优越，这一模态是很多人机交互场景的核心。

目标3：深层次理解

结合场景、世界知识和历史交互信息，再对语义、语用和情感进行深层次理解，能交互自然而有效率。

目标4：拟人式对话

在系统的输出侧，如果系统能够以高逼真度、高自然度、和高清晰度的拟人形象、声音、用词、和表达方式来和用户交互，就能大大减小对用户感知能力的要求。

目标5：个性化交互

最后一个指标是个性化交互，这也是为了使交互更自然。比如当与小孩交互时我们会希望机器的回答匹配孩子的认知水平、智能设备的语调和口吻适合孩子。又比如当与不同人交互时我们会希望智能设备的交互方式和内容是用户所感兴趣的。我们虽然不知道这些指标到什么程度用户会觉得足够好，但我们知道如果智能设备可以生成对话和形象使之表现得和与用户进行视频通话的朋友一样自然，那智能人机交互系统的终极目标就达到了。

智能交互系统距离期望目标尚远

在下一代智能交互的道路上，我们已经有了一些进展，但离我们的目标还有不少的距离。比如，虽然用户可以用语音和系统交互，但是用户往往需要适应机器，需要学习如何和系统交互以及系统能理解什么。在多模态交互方面，各模态往往互相独立或只有单一模态，没有充分发挥多模态能提供的能力和体验。对语义、情感、和场景的理解也还远远不到位，往往只有在非常特定的垂类上有一定的理解能力，超出这些垂类系统就表现得非常弱智。机器在交互过程中脸部表情和声音还不自然，并且有时会出现前言不搭后语的情况，更不用说通过不同的语调，借助不同的语气词，使用不同的回答方式，并结合丰富的面部表情和肢体语言来和用户交互。系统对用户也没有或只有简单的辨识和建模，对答没有统一风格也缺少个性化特色。

多模态智能交互系统的挑战与实现路径

我们可以看到，人机是一个高度协同的系统，为了降低对人的要求和限制，我们必须通过技术手段提升机器的能力。这里是一个高度简化的多模态交互系统，我们只列了语音和视觉两个模态的输入和输出。不过，这已经足以让我们看到系统的主要能力和信息流。在目前的系统中，这个框架图中的每一个模块都还不完善，都需要很多的前沿研究和细致的工程实现。要实现人机智能交互的终极目标我们面对的挑战还很多。这里我列举其中的四个挑战和我们正在研究的解决方案。

挑战一：复杂场景下语音唤醒和识别

在多模态交互系统中，语音作为对人来说最自然和最常用的交互手段是不可或缺的。虽然语音识别技术经过这些年的研究已经能在近场识别中达到或超过实用的门槛，但在很多真实远场场景下性能还远远不够，而远距交互是语音优于其他交互方式比如键盘和触摸的关键点。这里主要的挑战来自于重口音和鸡尾酒会这样的场景。为了在这些复杂场景下提升系统的识别率，我们的解决方案需要结合声源和人脸信息来辨识说话人及其方向，使用多通道语音来分离和跟踪特定说话人的语音，并利用该说话人信息做识别自适应。目前的交互系统中有一个很大的痛点是用户需要经常使用唤醒词来唤醒系统，这使交互过程不够自然，效率不高。我们认为结合语义、目光交流、和视觉场景分析是减少交互中唤醒词使用次数的重要方向。

挑战二：对话、场景、和情感理解

理解能力，这不仅包含自然语言的理解还包含场景和情感层面的理解。自然语言理解被广泛地认为是目前系统里最薄弱的一个环节，这是因为语言是用来刻画和描述世界并传递信息的，所以要理解一个语句所对应的实体或概念，我们往往需要了解这个实体或概念相对应的视觉、听觉、触觉体验以及和它相关的其他概念。而且，为了提升语言交互的效率人们往往假设许多背景信息交互的双方是已知的，不需要在对话中提及或传输。

这些都表明要提升理解能力很重要的一点，就是构建一个关于世界的模型，这个模型可能不止包含语言表达的知识还包括与概念相关的其他模态信息。这也表明为了使系统更有效率地和用户交互需要建立用户模型，用以描述用户的个性、习惯、爱好、对话历史，以及用户所了解的世界，有了用户模型，系统就可以针对性地进行个性化交互，也可以比较容易地理解和用户相关的语言。另外，为了提升对对话场景和情感的理解，我们可以同时利用声音和视觉信息来判别场景和情感。

挑战三：智能对话管理

对话需要逻辑上一致、语义上连贯。与人与人交互类似，人机交互也有不同的目的，并且多种目的的交互方式往往会在同一个对话段里出现，对话系统需要能灵活处理不同类型的对话而且需要因人而异。

一个可行的实现方式是将任务型、问答型、和闲聊型对话分解成可复用的更小的数量巨大的微技能，并通过统一的多层次对话管理模块整合在一起。对话管理模块需要能支持用户主导和系统主导的对话，能在两者之间自由切换，并对不同个性的用户使用不同的对话策略。

挑战四：高逼真度多模态对话回复

这是为了使用户能够和与人交互那样自然地得到信息反馈。在视频展示方面，我们的做法是逐步实现低成本、高可定制化、可控人脸实时动态三维建模和高真实度纹理生成和渲染。这里是我们和腾讯NEXT Studio团队合作的Siren虚拟人，可以看到我们在高逼真度智能控制语音和人脸方面的一些进展。在对话回答的生成方面，我们从数据中总结出各种表达语义信息的模板，并利用它们作为基本回复方式结合用户模型和对话状态生成最后的回答，并和视频同步合成具有情感的表情和声音。

Siren虚拟人

这样的虚拟人已经具备了一些基础的功能，包括多模态的输入、语音闲聊、简单的行政功能等，但是，完全达到智能人机交互的终极目标还有很长的路要走。

多模态智能人机交互系统赋能应用场景

然而，在我们逼近这一目标的过程中，就可以逐渐赋能一系列应用场景，比如在办公场景下的虚拟秘书、家庭里的陪伴机器宠物、游戏里的虚拟玩家、车载虚拟助手、和社交里的千人千面的交互bot。

多模态智能人机交互系统赋能应用场景

比如，对于青年人来说，开车途中可以通过和虚拟助手通话来控制汽车中控系统和智能设备，而虚拟助手还可以通过语音和视觉信息来判断驾驶员的疲劳程度和情感状态，降低驾驶风险。工作中，虚拟秘书可以帮助处理高重复性、高标准化工作，让你专注在核心问题上。下班后，虚拟社交使你能够打破时间、空间、想象力的界限，兼顾娱乐性、隐私性，创造更大的世界。

多模态智能人机交互系统服务不同场景下的不同人群——青年

再比如，对于儿童来说，虚拟教师可以随时随地根据儿童的现状和特点做针对性教学，学生可以通过AR/VR来认识世界并通过和虚拟世界中虚拟人物的交互而快速掌握知识。虚拟妈妈可以代替真实的妈妈陪伴儿童，给儿童讲故事，陪儿童玩游戏，指导儿童做作业。

多模态智能人机交互系统服务不同场景下的不同人群——儿童

随着智能技术的进一步发展，计算机对多模态数据的理解和整合能力也将越来越强，人机交互也将变得更加自然便捷。可以预见，未来的智能机器不仅能听懂和理解我们的话语，通过我们微妙的肢体语言洞悉我们的情绪，也许甚至还能基于充分的数据在我们表达出自己的想法之前就预测到我们的意图。

此外，未来的智能机器也许根据需求精确地呈现视觉形象，甚至借助味觉、嗅觉和触觉等方式与人类进行更丰富的交互。正如某些科幻中描述的那样，随着多模态智能人机交互的演进，未来某天我们也许真的能够创造出那种无论是外观还是行为都与人类别无二致的智能机器。我们非常看好多模态智能交互的未来。

俞栋博士
腾讯AI Lab副主任及西雅图实验室负责人
语音识别及深度学习领域专家

俞栋博士是语音识别及深度学习领域专家，于2017年5月加入腾讯AI Lab，负责其西雅图实验室的建设、运营及管理，推动腾讯在语音识别及自然语言理解等AI领域的基础研究。
俞栋博士是首次将深度学习技术应用在语音识别领域的研究领头人之一，该应用极大推动了语音识别的技术发展。俞栋博士在该领域出版了两本专著并发表过大量论文，也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。
加入腾讯前，他曾担任美国微软研究院语音和对话组（Speech and Dialog Group）首席研究员，并兼任浙江大学兼职教授、中科大客座教授及上海交通大学客座研究员。俞博士曾获 2013 年和2016年 IEEE信号处理协会最佳论文奖，现任 IEEE 语音语言处理专业委员会委员，曾任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。
俞栋博士有中国浙江大学电子工程学士学位、美国印第安纳大学计算机硕士学位、中国科学院自动化所模式识别与智能控制硕士学位及美国爱达荷大学计算机博士学位。

腾讯AI实验室

理论腾讯AI Lab语音识别NLP计算机视觉

相关技术

特征工程

来源：Yu, D.百度百科

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

可扩展标记语言技术

可扩展标记语言，是一种标记语言。标记指计算机所能理解的信息符号，通过此种标记，计算机之间可以处理包含各种信息的文章等。如何定义这些标记，既可以选择国际通用的标记语言，比如HTML，也可以使用像XML这样由相关人士自由决定的标记语言，这就是语言的可扩展性。XML是从标准通用标记语言中简化修改出来的

来源：维基百科

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

自适应学习技术

自适应学习也称为适应性教学（Adaptive Learning），是一种以计算机作为交互式教学手段的教学方法，根据每个学习者的特别需求，以协调人力资源和调解资源的分配。计算机根据学生的学习需求（如根据学生对问题、任务和经验的反馈）调整教育材料的表达方式。自适应学习技术已经涵盖了来自各个研究领域，包括计算机科学，教育，心理学和脑科学等等。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息（如声音、图像和生物测量）”的函数。例如，信号处理技术用于提高信号传输的保真度、存储效率和主观质量，并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此，对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

来源：Roland Priemer (1991). Introductory Signal Processing. World Scientific. p. 1. ISBN 9971509199.

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

人机交互技术

人机交互，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板、或是发电厂的控制室。

来源：维基百科