现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。
[描述来源:Wikipedia;URL:https://en.wikipedia.org/wiki/Multimodal_learning]
图像标题生成(image caption generation)就是一种典型的多模态学习应用实例,可以看作是将图像翻译成标题文本描述的一种操作。另一个使用多模态学习的例子,是利用计算机视觉对于视频中的说话人肌肉运动情况进行分析,得到的信息用以辅助语音识别技术区分近似发音。
发展历史
描述
多模态学习应用前景非常广泛,但研究时间不算太长。图片与文字或者说视觉与语义之间的多模态学习是当前相对较为成熟的一类多模态学习。
主要事件
年份 | 事件 | 相关论文/Reference |
2003 | D.Blei和M.Jordan将LDA扩展为多模态模型 | Blei, D. M., & Jordan, M. I. (2003). Modeling annotated data. international acm sigir conference on research and development in information retrieval. |
2011 | Ngiam等人将DAE模型扩展为多模态的MDAE | Ngiam, J., Khosla, A., Kim, M., Nam, J., Lee, H., & Ng, A. Y. (2011). Multimodal Deep Learning. international conference on machine learning. |
2012 | Srivastava将DBN模型扩展为多模态的MDBN | Srivastava, N., & Salakhutdinov, R. (2012, June). Learning representations for multimodal data with deep belief nets. In International conference on machine learning workshop (Vol. 79). |
2012 | Salakhatdinova将DBM模型扩展为多模态的MDBM | Srivastava, N., & Salakhutdinov, R. (2012). Multimodal Learning with Deep Boltzmann Machines. neural information processing systems. |
发展分析
瓶颈
现在多模态机器学习还存在很多挑战。包括多维度数据的各自表示、融合、对齐、协同学习,还有待学术理论的丰富和完善。
未来发展方向
多模态信息的关联、统一表示与协同。具体体现在,如何有效学习多模态共同部分的信息,而不受各模态独有信息的干扰;以及如何有机结合表示学习(指对各模态特征的学习)和关联学习(指对各模态特征相关性的学习)等。
Contributor: Han Hao