观色知喜怒：麻省理工成功开发情绪解读机器学习模型

麻省理工媒体实验室的研究人员开发出一种机器学习模型，它能让计算机像人一样自然地解读我们情绪。该模型能更好地捕捉细微的面部表情变化，从而更好地判断情绪。通过额外的数据训练，该模型在全新的人群中也能达到相同效果。

在不断发展的「情感计算」领域，用于分析面部表情、解读我们的情绪、并做出相应反应的机器人和计算机不断被开发出来。例如一些应用，包括：监测个人健康、观察学生上课的兴致、辅助诊断疾病病征，以及开发陪伴型机器人。

由于各种因素，人们表达情感的方式完全不同，这给情感计算带来一大挑战。文化、性别和年龄的不同，造成了这种普遍的差异。但其它的差异则更为细致：时间、睡眠状况、甚至你对交谈对象的熟悉程度，都会导致你在特定时刻表达快乐或悲伤的方式发生细微的变化。

人类的大脑可以本能地捕捉到这些偏差，但机器却不行。近年来，深度学习技术的发展帮助人们理解了其中的微妙之处，但这些技术在不同的人群中仍不准确且适应性不强。

媒体实验室的研究人员现已开发出一种机器学习模型，它在捕捉这些细微的面部表情变化时超越了传统系统。为了更好解读情绪，已在该模型上训练了数千张人脸图像。此外，通过额外的数据训练，这个模型在全新的人群中也同样有效。其目的是改进现有的情感计算技术。

「它以不引人注目的方式来监控我们的情绪，」Oggi Rudovic 说：「如果想让机器人具有社会智能，就必须让它们像人一样自然地对我们的情绪作出反应。」Oggi Rudovic 是媒体实验室的研究员，也是此论文的合著者，该论文上周在 MLDM（机器学习与数据挖掘）会议上发表。

论文的共同作者有：第一作者 Michael Feffer，电气工程和计算机科学的本科生；Rosalind Picard，媒体艺术与科学的教授，情感计算研究小组的创始人。

个性化的『专家』

传统的情感计算模型采用「一刀切」的概念。他们训练一组描述各种面部表情的图像，优化特征——比如微笑时嘴唇如何卷曲——并把这些特征映射到一组全新的图像中。

而在本文的研究中，研究人员将「多专家模型」(MoE) 技术与模型个性化技术结合在一起，这种技术有助于从个体中挖掘出更细粒度的面部表情数据。Rudovic 说，这是首次将两种技术结合到一起进行情感计算。

在「多专家模型」中，许多被称为「专家」的神经网络模型被训练成专门处理一个单独任务并产生一个输出。研究人员还加入了一个「门限网络」，计算出哪位「专家」能最好地检测到未被发现的受试者的情绪。Feffer 说：「网络基本可以区分个体，并指出『这是给定图像的正确专家』。」

在他们的模型中，研究人员通过将每个专家与 RECOLA 数据库中 18 个独立视频记录中的一个进行匹配，从而对 MoEs 进行个性化设置。RECOLA 是一个公共数据库，内容是人们为情感计算应用设计的视频聊天平台上的对话。他们用 9 个实验对象训练该模型，并在其他 9 个实验对象上进行评估，所有的视频都被分解成单个的帧。

每个专家和门控网络都在残差网络（ResNet，用于分类的神经网络）的帮助下跟踪每个人的面部表情。在此过程中，模型根据情绪效价（高兴或难过）和情绪唤醒（兴奋）程度——对不同情绪进行编码的指标——对每一帧进行评分。另外，六名人类专家给每一帧情绪效价与唤醒做了标注，标注打分范围从-1（低）到 1（高），此模型也会被用于训练。

然后研究人员进行了进一步的模型个性化实验，在实验中，他们喂给模型的数据是剩余视频的部分帧，然后用视频中未出现过的帧来测试模型。结果显示只有 5% 到 10% 的数据来自新人群，这个模型在很大程度上优于传统模型——即它在未出现的图像上对情绪效价和唤醒的评测水平更接近人类专家的标注。

「这显示了模型在数据很少的情况下，从人群到人群或者从个人到个人的适应能力。」Rudovic 说，「这是关键，当出现新的人群时，必须要有方法来解释数据分布的变化（微表情变化）。一个模型分析一种文化下的表情时，它也需要适应不同的文化。如果不考虑这种数据转移，模型就会表现不佳。但如果只是从一种新的文化中抽取一些样本来适应我们的模型，那这些模型可以做得更好，尤其是在个人层面上。这就是模型个性化最重要的地方。」

当前可获得的情感计算研究数据在肤色方面不够多样，因此研究者的训练数据受到限制。如果可以获得更多样的数据，训练后的模型就能用于更多元的人群。Fetter 表示，下一步就是在「一个包含多元文化的更大数据集」上训练模型。

更佳的人机交互

研究者表示，另一个目标是训练模型，帮助计算机和机器人从少量变化的数据中自动学习，以更自然的方法对人的情感进行检测，从而更好地满足人类需求。

例如，它可以在计算机或移动设备中运行，跟踪用户的视频对话，学习不同背景下微妙的面部表情变化。Feffer 说，「你可以根据智能手机或网站来了解人们的感受，推荐应对压力或痛苦的方法，并找出对他们生活产生负面影响的其它东西。」

另外，这也有助于监测抑郁症或痴呆症，因为人们的面部表情会因为这些情况而发生微妙的变化。Rudovic 说，「我们可以通过长期监控用户的表情来为他们定制个性化模型，并监控他们每天有多少偏差——偏离了面部表情的平均水平——并将其用作健康和幸福的指标。」

Rudovic 说，比较有前景的应用是人机交互，如个人机器人或教育机器人，机器人需要适应评估很多人的情绪状态。例如，有一种版本被用来帮助机器人更好地解读自闭症儿童的情绪。

Roddy Cowie 是贝尔法斯特女王大学心理学名誉教授，同时也是一位情感计算学者，他表示，MIT 的研究「说明了这个领域的研究现状」。「我们正慢慢打造一个系统，这个系统可以从面部照片判断出人们的情绪，从非常积极到非常消极，从非常主动到非常被动。直观说来，一个人给出的情感信号与另一个人的不同，因此当我们使情感识别个性化时，它能更好地工作，这很有意义。个性化方法反映出另一个有趣的点，即训练多个『专家』并综合它们的判断比训练一个单独的超级专家要更加有效。二者合在一起可以构成一个令人满意的组合。」他说。

产业麻省理工机器学习人机交互

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

机器人技术技术

机器人学（Robotics）研究的是「机器人的设计、制造、运作和应用，以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。机器人可以分成两大类：固定机器人和移动机器人。固定机器人通常被用于工业生产（比如用于装配线）。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器；另外还有能够实现感知能力的软件，比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成，这也是人工智能领域最早的终极目标之一。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域，涉及计算机科学、心理学和认知科学（cognitive science)。在计算机领域，1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态，并且适应它们的行为，对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

来源：Wikipedia

人机交互技术

人机交互，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板、或是发电厂的控制室。

来源：维基百科