报告包括以下几个方面的内容。
情感是大脑的高级活动,它是一种复杂的心理和生理状态,高级活动包括记忆、学习、决策和情绪等。情绪是情感的一个外部表现,是我们对事件内在或外在的反应。一个成功的人通常要同时具备高智商和高情商。情商反映一个人控制调节自己情感的能力,以及处理自己与他人之间情感关系的能力。情感很重要,它会影响我们做决策。情感计算要赋予计算机像人一样的观察理解和生成情感特征的能力,最终使得计算机像人一样进行自然亲近和生动的交互。情感计算中基本问题包括情绪识别。
以’emotion regulation’和’emotion recognition’作为关键词搜索文章,我们发现相关研究研究逐步增加,最高有每年1700篇左右。
Charles Darwin为情感领域做了两大贡献,一个是提出动物情感和人类情感是一致的,另一个是最基础的情感,包括愤怒、恐惧、悲伤等,在不同物种和文化中是共享的。第二点不仅在情感上适用,在语言上也是适用的,比如在不同的人种和文化中,“爸爸”、“妈妈”发音都是比较类似的。William在著作中认为情绪是人们对于自己身体所发生变化的一种感觉,先是有身体的变化才有情绪的感知,任何情绪的产生都有一定伴随身体的变化,包括面部表情、肌肉紧张、内脏活动等,可以通过外部感知推测情绪发生了什么样的变化。
2016年在《科学美国人》上有关于人类未来的20个大问题,其中一个是“我们能用可穿戴技术来探测自己的情绪吗”,说明我们还是希望能够了解自己的情绪。现在经常有人戴手环,使用各种APP,来记录每天走了多少步,吃了多少卡路里的食物,希望借助各种外部探测手段来了解自己。从这个意义上来说人们需要了解自己的情绪,进而来调控情绪。
下面介绍一下情感科学在学术界和工业界的动态。微软全球执行副总裁沈向阳认为,人工智能的研究要强调机器人与人之间的感性化交互,强调情感计算,实现情感智能。李飞飞教授认为要加强对情感情绪的了解。MIT的Rosalind教授认为情感在一系列智能活动中都起到核心作用,如感知、决策、逻辑推理、社交、行动选择、言语措辞等。AI研究如果忽视情感,就难以取得进展。
谭铁牛院士也曾说过“机器人有智商没情商”。在人机交互领域,Pepper、MIT以及日本一些公司做出的机器人能够像人一样自然亲切地进行交互。
在医学领域,情绪识别还为精神疾病诊断治疗提供依据。比如自闭症的诊断,利用复杂的量表检测比较困难。如果有一些比较好的情绪识别的工具,比如戴脑电,在病人活动的时候进行实时监测,可以对诊断提供帮助。同样还可以应用到自闭症的诊断和治疗中。
2014年的“马航370”事故,迄今原因仍然不明。其中有一个疑点是,机长在飞机失联前不到一个月时,在电脑游戏中操纵虚拟航班飞入南印度洋的深处,大家因此怀疑他是不是一直有自杀倾向。国际民航组织(ICAO)要求成员国的飞行员达到一定的心理健康标准。
2015年3月份德国之翼航空公司在法国阿尔卑斯山脉坠毁。后来得知副驾驶员在飞行过程中多次怂恿机长上厕所,机长离开后他反锁驾驶舱,启动下降按纽,导致坠毁。调查中得知副驾驶确实有心理疾病,上一个例子是推测,而后一个已经被证实。所以飞机员的状态对飞行安全很重要。情绪识别准确的话,可以避免此类灾难的发生。
情绪识别中一个新的领域叫做Affective Brain-Computer Interaction,也就是情感的脑机结合。脑机接口在大脑和外界设备之间建立直接的通道。但是,这个脑机接口不仅仅依赖于直接对大脑信号的测量,还包括其他心理、生理的信号,包括机电、眼电、心电等等。
上图是欧洲关于脑机接口发展的路线图,是Horizon2020的计划,涉及脑机接口的研究、提高、增强、恢复和替代。
白皮书里给出了一些建议。首先是关于大脑状态的监测。然后,一个能够监测人脑精神状态的客观度量对于决策很有帮助。类似的,在比较难做决策的时候,可以暂时放松一下,在更好的状态下做决策。最后,一个很重要的问题是如何识别情绪,并且保证鲁棒性,还有如何优化情绪状态。
传统识别情绪的方法包括面部表情、语音和肢体动作。这些数据比较容易获取,但是可靠度不是很高,受文化背景影响较大,也不太适用于残疾人。
现在出现了基于脑电识别情绪的方法,相较于传统情绪识别方法,有更高的可靠性。基于脑电的方法要求被试者戴一个电极帽,然后采集大脑的信号。所以它的数据包括空间和时间,相当于四维的时空数据,每一个电极相当于一个时间序列。
基于EEG情绪识别的一般流程如上图所示。首先,设计实验,找被试者,对他施加一些刺激。然后,对他进行数据采集。接下来是数据预处理和特征提取及分类。
EEG情绪识别里面有哪些关键问题呢?情绪识别有哪些特征比较好?情绪识别最关键的频段和电极位置在哪里?EEG如何与其他模态信号进行多模态情绪识别?并且不同人的EEG信号差别很大,怎样把这个人的模型用到另外一个人模型上也值得思考。
今天我向大家介绍一下我们组近期的两个工作。一个是关于风格迁移映射的多元迁移学习,第二是跨被试多模态情绪学习。
首先介绍一下数据集。这个数据集SEED是上海交通大学吕宝粮教授提供的,有15个被试,看15个视频片断,每个约有4分钟。受试者看完之后要对自己的情绪进行评估,然后进行休息。情绪分成三类,包括积极的、中性的、和负面的情绪。电影都是《唐山大地震》《泰囧》这种刺激性比较强的。
这些数据集做了预处理,包括降采样和特征提取,这些特征也可公开下载,谢谢吕老师做的很好的铺垫工作。
传统方法一般是把EEG数据提取特征然后拼接起来,再建立特征向量到情绪标签的映射。这样导致电极之间的空间关系丢失。
我们前期做了一项工作,保留电极之间拓扑结构,将电极位置转换为图像,利用CNN进行测试,得到比较好的效果。深度学习用到基于脑电的情绪识别是可行的,而且效果还不错。
但是更进一步,对一个人采集数据,进行训练后,构建了一个模型。但是如果来了一个新用户又要重新建立模型。原来的模型不够鲁棒,所以我们要研究如何将一个人的模型迁移到另一个人。传统机器学习针对一个任务或领域训练模型,对另外一个领域或任务又要重新训练模型。迁移学习要把这个领域的知识迁移到另外一个领域。
我们做的是基于风格迁移映射的多源迁移学习。传统机器学习是在不同领域或任务上分别训练模型,迁移学习不同的领域和任务共享知识。我们把知识输出端称为源(source),输入端称为目标(target)。
现在要考虑它的应用场景。比如说我们针对过往被试训练了模型,现在有了一个只有少量标注的新被试,我们如何基于过往被试的模型实现新被试高精度的分类?我们提出一个多源迁移学习框架。选择合适的源,在每个合适的源上,消减目标和源的差异,使源上的分类器直接用于推断目标中样本的情绪标签。在多分类器集成框架下,我们实现了对目标域的高精度分类。
这个过程包括这样上图三个步骤。首先,我们有很多个源,来了新被试后,要从以前被试者中选择合适的然后迁移到新的被试上,也就是进行源的选择。第二步是特征映射,把以前的源和现在的目标之间建立一个映射关系,这里通过一个变化矩阵学习M,新被试可以通过M映射回来。最后,将以前的分类器集成得到这个标签。核心问题是如何学习M。
我们受刘成林老师发表在PAMI上的文章启发,原有工作是字符识别中针对不同字体风格的迁移,其映射方式是仿射变换。上图是我们定义的目标函数,o相当于源,d相当于映射终点,后面两个是正则项。这个目标函数是二次规划的问题,可以有一个解析解。
现在问题是如何针对新样本定义映射终点。我们这里不是直接做映射,采用定义原型的方式。比如说有三类情绪,传统方法通过三类分类器可以把分类面得到。离分类面越远的样本越容易被区分,越近越难以被区分。离分类面很近的样本如果也迁移过去的话可能会导致负迁移,所以分类面上的样本可以去掉。我们对以前情绪样本进行聚类,聚类中心是原形,目的是向新的聚类中心做映射。有两种原形定义的方式,一个是基于k均值聚类的方法,一个是基于高斯模型的方法。
做迁移的时候,有些目标样本上是有样本标签的,置信度就比较高,但是还有一部分目标没有标签,这时要如何迁移呢?我们需要定义置信度,以前的做法是把最近的距离和第二近的距离做一个差,定义一个函数。我们定义加权距离,有两种方式,一种是监督式,仅仅只用有带标签的源里的数据,没有用到没有标签的数据。
而半监督式不仅利用到带标签的数据,还利用没有标签的数据。我们通过分类器对它进行预测,每个预测有一个概率值,得到置信度之后进行迁移学习。
这是迁移学习的结果,比较之前利用的一般的模型,这个模型是把很多被试的数据放在一起进行训练,比如说被试前70%进行训练,后面30%进行测试,得到一个分类器,它相对于单个样本训练模型更加鲁棒。最后结果是三分类情况下平均正确率提升22.8%。
然后我们进行可视化,以前的方法比较难以区分情绪,通过迁移学习后能够比较好地区分开。准确率还与源样本的数目有关系,右下的图体现了选择不同源的个数对分类正确率的影响,我们发现选择7个源就可达到较好的效果,如果选择源的个数太多,会增加计算复杂度。另一方面,如果标签越多性能越好,但我们从上图可以看出,标签数目比较少的时候也能够得到比较好的效果。
我们把学到的标签映射回脑地形图,进行可视化。我们在脑电上观察,源和目标在处理前很不相似,但迁移之后比较相似。在我们提出的方法中,仅需采集新被试的少量标注样本,就能使现有模型直接用在新被试,具备重要的实际应用价值。本方法要求新被试的少量标注样本,在此基础上,也可以利用新被试的无标注样本,可在监督学习及半监督学习下工作。在迁移中使用多个源,可有效提升模型的泛化能力。这个工作已经被IEEE Trans. On Cybernetics接收。
我们的第二个工作是跨被试多模态的情绪识别。
情绪识别任务有两大特点,一个是多模态,模态包括面部表情、语音等各种各样的生理模态。另一个是跨被试,如何从以前的模型迁移到新的模型。
我们用多视图变分自编码来融合多种模态。我来分享一下多视图变分自编码,我们现在有两个模态,一个模态是脑电,一个模态是眼动,脑电和眼动都反映情绪。
因此就把它当做多视图理解,通过多视图编码找到两种视图之间的隐含表征。以前的传统自编码把隐含表征的先验和后验都当作高斯分布。这里有两个模态,做了一个混合高斯,可以通过脑电自己生成脑电,脑电可以生成眼动,在这种框架下二者可以互相生成。多视图变分自编码是一个多视图表示学习,利用了贝叶斯推断。脑电和眼动有一些权重,权重体现出对情绪识别的重要性。
现在我们来看一下跨被试多模态数据建模场景。源领域有部分标记数据,这是半监督的,目标领域都是没有标记的。源领域和目标领域都有多种模态,目标是做一个目标领域和源领域通用的分类器。
上图红色框里是源领域的变分自编码,蓝色框里是目标领域的变分自编码,他们在隐含层是共享的。我们想学习的这些隐含的表示,使二者隐含表征的距离更小,相当于加了约束。另外一方面,源领域内做分类学习,领域间要对抗,使得两个领域隐含表征分布接近,同时使得隐含表征在源领域内有很好的性能。所以目标函数包括图中三个部分。
上图是实验数据,不仅有EEG还有眼动数据,但是眼动数据量少一些,只有9个被试。另外还有人脸表情的数据,有30个被试,这都是多模态数据集。
和以前的迁移方法进行比较,性能得到提升。蓝色和红色代表不同领域,如果以前没有领域对抗的话,两个领域差异性比较大,如果用我们这个领域对抗进行约束的话,差异性小很多。这个工作发表在ACM MM2018上。
最后做一下总结和展望。我们设计了用于高精度EEG情绪识别的深度学习方法框架,并针不同实际场景,分别提出了监督式、半监督式和无监督迁移学习法,使得情绪识别模型能够跨被试使用,具备重要的应用价值。接下来还有很多方面可以继续探讨,比如远距离的迁移学习,源被试之间如果差异特别大,直接迁移很难,需要从不同被试中选择迁移路径。还有在zero-shot learning,one-shot learning和online learning上的应用都值得继续探讨。
参考文献链接:
https://pan.baidu.com/s/1Ul6T1klBaJt1ZC46Lbd3Ag
密码:
xqs3
接下来是提问环节。
提问者1:EEG不像表情信号可以直观看出是哪种情感,EEG信号在采集的时候,数据库也是通过视频标签来做的,但不同人对视频感觉是不一样的,可能高兴的视频一个人因为笑点比较低没有产生很大情绪的反应,这样会不会造成数据库本身不是很可靠的问题?在脑电采集的时候,标定可靠性方面你有什么更好的建议?
何晖光:你这个问题问得非常好,因为不同的人对相同刺激反应不一样。我们对情绪打标签不是通过视频去打的,是在做了实验之后的一个自评估环节,被试者要通过自己的判断打一个分数。
提问者2:这个数据库的标签是很平均的标签吗?
何晖光:给的这些视频冲击性都特别强,刺激性特别强,都是表较能带来情绪波动的视频。
提问者3:直接将脑电数据应用到多模态情绪识别可靠吗?
何晖光:我们不是直接将脑电数据拿过来用,也利用各种特征进行了评测,比如是哪个波段,是什么熵。另外一个方面,脑电差异性太大,所以我们想到用迁移学习来做。
提问者4:特征是用的什么呢?
何晖光:这个特征用的是功率谱。比如说脑电之前有一定的预处理,了解到功率和微分熵比较好,便加以利用。现在也有直接用未处理数据的,效果有的好,有的不好,还在继续探讨过程中。
提问者5:您在第一个工作中,数据怎么划分?
何晖光:源数据是已经采到的数据,目标数据是来了一个新的被试,需要从这源被试相似样本来做迁移,如果用不相似的样本会带来负迁移。
提问者6:差异性是只有不同的人表现出来的吗?
何晖光:这里是通过不同的人体现的。
提问者7:想问源样本一下选了多少个?
何晖光:大概选7个还不错,如果选太多后面计算量太大。
--end--
作者简介:
何晖光,中科院自动化所研究员,博生生导师,中国科学院大学人工智能学院脑认知与智能医学教研室主任、岗位教授,中科院青年创新促进会优秀会员。中科院脑科学与智能技术卓越中心团队成员。中国图象图形学会视觉大数据专委会及机器视觉专委会常务委员,IEEE高级会员,CCF-CV专委会委员。分别于1994年(本科),1997年(硕士)毕业于大连海事大学,2002年在中国科学院自动化研究获博士学位。曾在美国罗切斯特大学、加拿大滑铁卢大学、美国北卡大学教堂山分校做博士后、高级研究学者。何晖光博士先后主持5项国家自然科学基金(包括国家自然基金重点项目)、2项863项目等,先后获得国家科技进步二等奖两项(分别排名第二、第三),北京市科技进步奖两项,中科院首届优秀博士论文奖,北京市科技新星,中科院”卢嘉锡青年人才奖”,中科院青促会优秀会员等荣誉称号。任国家自然科学基金, 国家863计划以及科技部国际合作项目的评审专家。其研究领域为脑与认知科学,模式识别,医学影像处理,脑-机接口,计算机图形学等, 其研究结果在IEEE TNNLS, IEEETCyber, NeuroImage, Human Brain Mapping, Pattern Recognition, MICCAI等相关领域的国内外核心期刊以及国际主流会议上发表文章120余篇。