数据融合 | 机器之心

简介

描述：数据融合技术将来自多个传感器（信息源）的数据和相关数据的信息相结合，以实现比单独使用单个传感器（信息源）所能实现的更高的准确性和更具体的推论。

下图所示为基本的数据融合过程。不同的传感器所获得的数据分别处理后进行融合，成为一个统一的数据集。

Figure 1 A multi-sensor data fusion system.png

图片来源：https://www.nutaq.com/multi-sensor-data-fusion-introduction/

融合方法的依据种类有多种，以下五种比较常用。

第一种是根据数据源之间的关系，可将数据分为互补类型，冗余类型和合作类型。互补类型的数据往往属于同一范畴，比如同样属于语音数据。冗余类型的数据也属于同一范畴，但是数据本身有较多重叠，比如覆盖范围重叠的两个摄像头。合作类型的数据不属于同一范畴，比如多模态识别中同时利用语音和图像信息。

第二种是Dasarathy提出的三个融合层面，第一个是在数据（data）层面直接融合，第二个是从数据中提取特征（feature）后在特征层面的融合，最后一个是根据数据得到决策（decision）后在决策层面的融合。

第三种是Luo提出的四个层面，第一个是信号源（signal），第二个是像素（pixel），第三个是特征（characteristic或feature），最后一个是符号（symbol）或者决策（decision）。

第四种是Joint Directors of Laboratories (JDL)和美国国防部提出的五个层面。第0层直接来源于数据本身（source），第1层来源于数据所代表的实体（object），第2层为实体所处的状态（situation），第3层为实体所处状态会造成的影响（impact），最后一层对前四层精炼处理（process）。

第五种是根据数据的组织结构，可分为中心结构（centralized），去中心结构（decentralized），分散结构（distributed）和层次结构（hierarchical）。

描述来源：Castanedo, F. (2013). A review of data fusion techniques. The Scientific World Journal, 2013. https://www.researchgate.net/publication/259003916_A_Review_of_Data_Fusion_Techniques

发展历史

描述

数据融合的方法自从计算机技术广泛应用以来一直被使用至今。

1975年，Bar-Shalom和Tse的论文“Tracking in a cluttered environment with probabilistic data association”使用了数据融合的手法，使得目标检测于跟踪的性能得到很大提升。

1988年，Durrant-Whyte在论文“Sensor models and multisensor integration”中提出，通过使用多个传感器并融合数据，可以良好的改善机器的对目标的识别性能。

1991年，Joint Directors of Laboratories (JDL)在论文“Data Fusion Lexicon”中，给出了最为广泛接受的数据融合定义。

1997年，Hall和Llinas在论文“An introduction to multisensor data fusion”中介绍了多传感器数据融合的几种常用方法和结果比较。

进入21世纪后，数据融合的应用越来越广泛。

2011年，Shindler等人在NIPS上发表的论文“Fast and accurate k-means for large datasets”提出了使用k临近方法，快速融合大数据集中的相似数据。

如今，数据融合方法在语音，图像，文本等众多研究领域发挥着非常关键的作用。

主要事件

年份	事件	相关论文/Reference
1975	数据融合的手法被应用在目标跟踪检测中	Bar-Shalom, Y., & Tse, E. (1975). Tracking in a cluttered environment with probabilistic data association. Automatica, 11(5), 451-460.
1991	JDL给出了最为广泛接受的数据融合定义	White, F. E. (1991). Data fusion lexicon. JOINT DIRECTORS OF LABS WASHINGTON DC.
1992	90年代的数据融合技术总结	Luo, R. C., & Kay, M. G. (1992). Data fusion and sensor integration: State-of-the-art 1990s. Data Fusion in Robotics and Machine Intelligence, 7-135.
1997	另一个被熟知的定义被提出，同时多传感器数据融合的方法和结果首次被进行比较	Hall, D. L., & Llinas, J. (1997). An introduction to multisensor data fusion. Proceedings of the IEEE, 85(1), 6-23.
2011	用于大规模数据集的快速准确的k临近数据融合方法被提出	Shindler, M., Wong, A., & Meyerson, A. W. (2011). Fast and accurate k-means for large datasets. In Advances in neural information processing systems (pp. 2375-2383).

发展分析

瓶颈

数据融合难免会有造成一定的数据冗余，如果数据基数非常大，冗余也会相应增多，十分影响效率。

未来发展方向

数据融合后的降维是个主要关注点。利用主成分分析（PCA）等方法，在融合后的数据中选取重要成分，减少相关程度低的数据，加快学习和模型的建立。
自动驾驶的车辆上安装有多个传感器收集外界数据，如何统合这些数据并进行建模，使得系统对外界景物，人物的识别率可以达到极高的精度，以及如何快速的识别高速行驶的车辆，都需要用到数据融合技术。

Contributor: Yuanchao Li

简介