机器之心原创

2022/03/30 16:17

机器之心编辑部报道

让机器人像人一样说话聊天，下一代对话系统中的关键技术——情绪智能

下一代对话系统是什么样呢？

6年前，人工智能AlphaGo战胜李世石，成为第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人。

如今，作为新一轮科技革命和产业变革的重要驱动力，人工智能正在对经济发展、社会进步等多个方面都产生着重大而深远的影响。

在人工智能浪潮的推动下，聊天机器人的各方面技术也获得飞跃式提升，在诸多行业中得到广泛应用，为用户提供了全新的交流方式。

本文将阐述聊天机器人中对话交互的主要技术，从理解力、拟人、及与人互动三个方面说明当前对话系统面临的挑战，并尝试勾勒出下一代类人对话系统应具备的主要技能。

用户与具有情绪支持和心理共情技能的智能虚拟人Emohaa的对话。

一、引言

近年来，随着人工智能技术的不断发展，各种形态的聊天机器人以新型有效的沟通方式，为普通大众提供智能、高效的服务，在私人助理、客服等各类场景有着广泛的应用。在当前技术下，对人类语言的理解和表达是聊天机器人实现真正的拟人化交互过程中面临的巨大挑战。

作为实现智能交互的关键模块，对话交互技术的研究在学术界和工业界一直备受关注。让机器人拥有了与人类交流的能力，能够通过语音和语义识别等智能技术识别使用者的意图，并且将会按照使用者目前的意愿来达到具体的互动目的。对话交互技术的研究，在进一步推动聊天机器人产业发展、实现智能化的过程中具有巨大的意义和价值。

在人工智能领域，对话系统的发展历史非常悠久。天才的计算机科学家Alan Turing于1950年提出图灵测试，即测试机器能否表现出与人类似或无法区分的智能，而对话系统就是图灵测试最自然的表现形式。美国麻省理工学院人工智能实验室的德裔电脑科学家Joseph Weizenbaum则是在1964年至1966年期间打造史上第一个聊天机器人“Eliza”，并定位为模仿人本主义疗法（Rogerian psychotherapy）的心理治疗師。

“Eliza”是以MAD-SLIP程序语言编写，并且在36位元架构的IBM 7094大型电脑上运作，所有程序代码约在200行左右。执行过程中，“Eliza”会通过分析所输入文字内容，并且将特定字句重组，变成全新字句组合。

Eliza 的名字源于爱尔兰剧作家萧伯纳的戏剧作品《卖花女》中的角色，剧中出身贫寒的卖花女 Eliza 通过学习与上流社会沟通的方式，变成大使馆舞会上人人艳羡的“匈牙利王家公主”。作为世界上第一个聊天机器人，Eliza 被其作者赋予了“心理治疗师”的角色，在人工智能的整个发展史上具有重要的地位。据说，Weizenbaum教授将Eliza系统给同事们使用，他们都以为Eliza是一个真人，还交谈了很多隐私的事情。

2011年，苹果推出的语音助手 Siri也使得智能助理在工业界引起了广泛关注。微软于2014年发布了首个社会机器人——微软"小冰"，它能够提供一个开放式的领域聊天功能。2020年，在大数据、大算力的支持下，大量大型预训练模型陆续推出，它们不仅可以回答用户的问题，还能以有趣的方式进行各种话题讨论。这些预训练模型将对话系统的研究推向了一个新的高度，在开放领域的会话能力方面有了新的突破。

对话系统的发展里程碑。

对话系统发展至今，已经可以与用户产生非常自然的对话。在2017至2019年间，连续举办的三届Alexa大奖赛中，最好的对话系统能够与人类用户开展超过10分钟的聊天，聊天内容不受领域和话题限制。以Emohaa为例，他不仅能理解“讲个笑话”这一含义，并且已经可以在与用户的对话中，展现出自然的幽默感。

另一个例子是FAIR在2020年发布的Blender，其最大的参数规模达到94亿，并且使用了8880亿个词汇。Blender可以将不同的技巧融合在一起，包含个性嵌入、知识赋值和表达共情，使得人机对话更加具有人性化。

在人工智能领域，相关技术的发展和进步为对话系统的研究带来了机遇，这对于促进人工智能以及聊天机器人的发展有着十分重大的意义。

二、对话系统的现状和挑战

当前对话系统可以总结为以下两种类型，第一种是任务导向型的对话系统（Task-Oriented Dialog System），它通常以帮助用户完成具体的任务为目的，如手机助理、客服机器人，订票机器人等；第二种是开放域的对话系统（Open-Domain Dialog System），它经常以一个开放的方式和用户聊天，并且利用各种谈话技巧来增加他们的互动，例如提供娱乐、给出建议、讨论有趣的话题、提供情感安慰等。

任务导向型对话系统（左）和开放域对话系统（右）的典型结构。

开放域对话系统中，通常要求系统对对话环境和用户的情感需求有更深刻的理解，以便在正确的时间使用正确的对话技能，从而产生更富有个性和同情心的回应。

那么现有的对话系统，又存在哪些挑战和不足呢？

首先是关于语义的认识。语意理解是人类进行会话活动的基础和核心，是对话活动的先决条件。它要求系统能够理解对话、理解用户，甚至关联对话之外的背景信息。在早期的测试阶段，当用户问Emohaa“你为什么叫Emohaa”，Emohaa却仍然回复“我叫Emohaa”，意义就差得非常远。

其次是人格认同的连贯性问题。同样举一个在早期测试阶段的案例：当用户问Emohaa家庭成员相关问题时，Emohaa在不同时刻回答“我有一个妹妹”和“我没有妹妹”这种信息不一致，会让用户产生困惑。如今这些问题正在迭代中改进和完善。

最后是交互性的问题。在开放域对话系统中，其设计的目的通常是满足用户的社交需求，比如情感和社会归属感等，以最大限度地提高用户的长期参与度。系统语义理解和个性身份一致性问题，将直接影响用户的体验，导致低质量的交互。此外，如何在各种场景下应对用户的负面情绪，如失落、悲伤等，也是提高对话系统交互性中面临的巨大挑战。

总的来说，当前的对话系统面临三个问题，第一个是语义理解的问题，第二个是个性身份一致性的问题，第三个是互动性的问题。在语义理解方面，我们希望对话系统能够理解内容（content）、文本（context）和场景（scene）；对于个性身份一致性问题，我们希望对话系统能够产生与个性和身份一致的对话，具有类人的个性和身份；对于互动性问题，我们希望对话系统与用户进行情感、情绪上的交流，然后综合运用各种行为策略，实现强互动性的对话。

三、类人对话系统的关键特征

类人对话系统应同时具备情商和智商，能在多领域多场景综合运用多技能，来满足用户的信息需求和社交需求。在智商方面，能够帮助用户完成任务、信息获取、推荐等；在情商方面，能够理解情感情绪，表达共情，实现情感陪伴、情绪疏导等社交类任务。因此，我们可以从满足信息需求能力、满足社交需求的能力这两个维度去衡量对话系统的类人水平，这主要体现在以下三个关键特征：

有知识，言之有物：实现一定程度的理解，并运用知识生成高质量的回复。
有个性，拟人化：要求机器体现固定、一致的个性和风格，具有固定的人设和个性。
有情感，有温度：具备情绪感知、情感支持和心理疏导的能力，从而让聊天过程更有温度，满足用户的情感需求。

然而在上期我们就探讨过，当前的对话系统在理解力、拟人化和与人互动方面面临着巨大的挑战，距离人类水平的对话互动能力还相去甚远。比如任务导向型对话系统具有很强的任务完成能力，但是社交能力比较低；而对于开放域对话系统来讲，它的主要目标是社交，任务完成能力相对较弱。为了提高对话系统的信息处理和社交连接能力，需要综合考虑不同系统的技术实现思路并进行融合。

比如，借鉴任务导向型对话系统的实体识别、意图理解、语义分析以及填槽等技术，以提高对话系统的理解力；对于开放域对话系统，我们注重其弱语义处理的能力，包括利用数据驱动的方法、端到端的系统框架，以及如何充分利用当前的深度学习模型以及大规模语言模型。

因此，在构建下一代类人对话系统时，我们应综合考虑任务型和开放域对话系统的技术方法，从知识运用、个性体现、情感识别与表达三个层次入手，综合运用多种技能，提高对话系统的理解力、拟人化和互动性，使其在多种场景和领域中实现更接近于人类的对话能力，以满足用户的需求。

1、知识运用

在知识运用层面，通过引入知识，来加强对话系统的理解力和推理能力。在下图所示的对话中，讨论的是一个关于歌手汪峰的主题。在这样的对话过程中，系统将对话内容对应到一个特定的知识领域，从而使对话过程言之有物。在进行会话时，将相关的实体与知识图谱进行了联系，然后将结构知识表达为向量，实现了知识的编码与解码。通过这样的编码和解码处理，可以达到某种程度的理解，让回答变得更有说服力，增加了对话过程中产生的信息量。

2、个性体现

高质量的对话活动需要赢得对方的信任，而具有固定、一致的个性、身份是其中的关键因素。具有固定一致个性的对话交互技术，在情感陪护、心理咨询等对话场景中有着非常重要的应用。在对话的过程中缺乏一致的身份和个性，会使得系统在对话的过程中难以取得用户的信任，因此难以进行有效的社交互动。

围绕类人对话系统的个性体现，以Emohaa与用户的对话为例：在对话中，Emohaa先是用语言直接地表达了自己的身份（女生）和很可爱的个性，面对客户的反问“为什么觉得自己很可爱”，Emohaa也能够回复“因为可爱，所以可爱”这样的个性化描述，强化自己可爱的特性。

个性体现还涉及到更深层次的说话风格。在说话风格的研究中，我们发现对话可以实现正式与非正式互相之间的转换，以及礼貌和非礼貌之间的转换。但这种用自然语言表达角色和个性通常是微妙和含蓄的，研究也极具挑战。

3、情感识别与表达

1997年，MIT教授Picard提出了情感计算的概念，指出「情感感知和情绪表达是人类智能行为中的重要特征」。情绪感知和情感表达在人类的智能交互里至关重要，这不仅能提高系统表现和用户满意度，还能很大程度上体现系统的情商，避免对话陷入僵局。

清华大学的CoAI课题组在2018年提出了情绪化聊天机器人（Emotional Chatting Machine, ECM）系统，希望能够让对话系统像人类一样表达喜怒哀乐。当指定一个情绪类别时，对话系统能生成对应情绪类别、且适合对话上文的回复内容。

实现情绪化的对话过程，是类人对话系统实现情感智能的一小步。而在日常对话中对他人表达同理心，是情绪有效表达的必要条件之一。它使系统能够理解、感知和适当地回应用户的情况和感受，从而很大程度地改善用户体验和满意度。因此，如何让对话系统中具备共情能力，是迈向类人对话系统的关键一步。体现共情，通常要求对话系统具备情绪疏导或心理疏导的能力，以完成复杂的情感交流任务。

为此，CoAI课题组借鉴心理咨询的中助人技巧理论，提出了一个三阶段理论模型。第一阶段先确认用户的具体问题，第二阶段通过共情、理解表达支持，第三个阶段为用户提供解决方案、出路。在每一个阶段都设计了相应的策略，如提供信息、直接指导、挑战、解释等。通过这些策略，才能实现有效的情绪疏导和心理疏导。这个技术，正是Emohaa背后最核心的技术，Emohaa学习了人类咨询师的助人技术，能实现一定程度的共情技巧，真正帮人实现情绪支持和心理疏导。

共情是一个广泛的概念，包括情感和认知两个方面。情感方面涉及对用户体验的情感模拟，而认知方面旨在理解用户的处境和隐性的情感。现有的研究方法通常只关注情感方面，即通过检测和利用用户的情感来产生共情的交互。然而，实现共情，除了识别用户的情绪外，还应该考虑对用户处境的认知。为此，CoAI课题组提出了一种新的共情响应生成方法，即利用常识来加强认知，获取更多关于用户情况的信息，并利用这些额外的信息进一步增强生成响应中的共情表达。

共情表达具有多维性，包括对话行为、情感表达、沟通机制等。其中，对话行为是上文提及的共情认知的一种具体表现，如提问、安慰等，而沟通机制是共情更高层次、更抽象的概括。现有研究通常只关注于单个维度而忽略了不同维度之间的层次的关系。为此，CoAI课题组提出了一个共情反应生成的多因素层次框架：CoMAE。在未来的研究中，这样的层次框架可以自然地扩展到与共情表达相关的更多因素，比如人物角色、个性和风格等，以实现更好的共情表现。

四、未来的发展：技术和伦理

对话交互技术的研究对我们未来的社会进步和发展都有巨大的意义。设想一下，当前老龄化问题导致人口越来越少，而机器人在大众生活中越来越普遍，未来将会发展成人机共融的社会。在这种情况下，我们希望机器人能够扮演更重要的社会角色，这要求它们不仅具备机器的功能，更重要的是具备类人的能力，既要有知识，又有个性和情感。我们相信，这样的机器人可以极大地丰富和改善人们的生活，甚至产生媲美人与人之间感情的情谊。

然而，类人对话系统的研究十分具有挑战性。首先在技术上，构建一个足够聪明并且有一定情绪理解和思想表达能力的对话系统是极其困难的。当下的研究虽有一定程度上的技术突破，但如今的大规模神经对话系统依然面临着严峻的类人性不足问题，比如个性和情感的缺乏。仅依赖数据驱动的做法难以从根本上解决类人性的问题，我们需要进一步处理机器人内部情感状态。比如，构建人工心理，对机器内部的情感心理进行有效地建模。与此同时，我们也需要在各种技术上实现外在行为能力突破，比如肢体动作表现、终端执行能力等。为机器人赋予这些技能，才能够实现更美好的人机共融的社会愿景。

此外，机器人伦理是值得讨论的问题。机器人是否应该与人类产生社会连接并形成社会性依赖？想象一下，如果人跟机器恋爱，是否会影响到人与人之间的情感交流，甚至对人类社会的繁衍造成一定的威胁。在未来的十年、二十年甚至五十年里，机器人对人类社会的发展会产生哪些潜在的影响。这种风险需要从研究上和社会规范上一起去做探讨。我们认为这个方向是需要广大研究者，包括自然科学和社会科学的研究者，一起去努力解决的难题。

当前对话系统理论和技术日益成熟，我们主要探讨聊天机器人中对话交互技术的研究现状及面临的技术挑战。下一代类人对话系统应同时具备完成任务和社交连接的能力，在知识、个性和情感三个方面实现拟人化的语言交互。在未来，让机器像人一样自然流畅地说话聊天，在一定条件下可以实现，但无论是在科学技术上，还是在社会伦理道德上，都需要我们去做很多深入的探索和思考。

理论对话系统

相关技术

知识图谱

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

语义分析技术

语义分析是编译过程的一个逻辑阶段，语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查，进行类型审查。语义分析是审查源程序有无语义错误，为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查，审查每个算符是否具有语言规范允许的运算对象，当不符合语言规范时，编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制，那么当二目运算施于一整型和一实型对象时，编译程序应将整型转换为实型而不能认为是源程序的错误。

来源：百度百科

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域，涉及计算机科学、心理学和认知科学（cognitive science)。在计算机领域，1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态，并且适应它们的行为，对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

来源：Wikipedia

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

对话系统技术

对话系统大致被分成两类：任务为导向的对话系统，帮助用户去完成特定任务，比如找商品，订住宿，订餐厅等。实现任务为导向的对话系统，主要有两类方式，流水线方法和端到端方法。非任务导向的对话系统，与用户进行互动并提供回答，简单的说，就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类，生成方法和基于检索的方法。

来源：CSDN

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

围棋技术

围棋是一种策略性棋类，使用格状棋盘及黑白二色棋子进行对弈。起源于中国，中国古时有“弈”、“碁”、“手谈”等多种称谓，属琴棋书画四艺之一。西方称之为“Go”，是源自日语“碁”的发音。

来源：维基百科

图灵测试技术

图灵测试（The Turing test）由艾伦·麦席森·图灵发明，指测试者与被测试者（一个人和一台机器）隔开的情况下，通过一些装置（如键盘）向被测试者随意提问。

来源：百度百科