中科大提出面向自动情感识别的DeepFusion
由于抽象概念和情感的多种表达,自动情感识别(AER) 一直是一项极具挑战性的任务。虽然,当前对 AER 还没有一致的定义,人类情感状态通常可被音频和视觉系统观察到。受到人类这一认知过程的启发,在 AER 中同步使用视觉和音频信息也就是自然而然的事情了。在论文《Deep Fusion: An Attention Guided Factorized Bilinear Pooling for Audio-video Emotion Recognition》中,研究者们提出了分解式双线性池化(FBP)方法来深度融合视频和音频的特征。特别是这些特征是通过从各自形态到获取情感相关区域这样的嵌入式注意机制选择的。整个流程可以在神经网络中完成。通过在 EmotiW2018 挑战赛中音频-视频分赛 AFEW 数据集上的验证,该方法取得了 62.48% 的准确率,超越了其他顶级成果。