噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。
数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。KDD的步骤如下:
[图片来源:Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.]
在上图的第一步数据清理中即涉及到噪声,需要去除噪音和不一致的数据。一些基本的统计描述技术(如箱线图和散点图)和数据可视化方法可以帮助我们初步识别可能代表噪声的异常值。
在实际工作中,我们往往需要平滑数据以消除噪音,其中常用的数据平滑技术有:
分箱(binning):分箱方法通过查询其周围的值来确定该数据点的最终值, 即将待处理的原始数据按照某种规则划分入不同的“箱子”内,分别考察每一个箱子,并用某种方法分别对箱子内的数据进行处理。 由于装箱方法会咨询值的邻域,因此它们执行的是局部平滑。
回归(regression):数据平滑也可以通过回归来完成, 线性回归涉及找到适合两个或多个属性(或变量)的最佳线性组合,以便可以使用一个属性来预测另一个属性。
异常值分析(outlier analysis):可以通过聚类来检测异常值,直观上,聚类之外的值可能被视为异常值。
值得注意的是,离群值(outlier)也常常被视为噪音丢弃,但在一种情况中是被视作噪音的离群值并不一定在其他情况中也是噪音。
[描述来源:Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.]
发展历史
描述
用于进行研究的数据中有噪音是非常常见的一件事情,机器学习模型的建立从一开始就是为了在数据中排除噪音的干扰而学习正确的模式。也正是因为如此,有关有噪音的数据学习的研究非常丰富,并且涵盖了许多领域。1978年Craven和Wahba对平滑样条曲线(smoothing splines)进行了讨论,这是一种重要的平滑离散的、有噪音的数据的手段,他们提出了一种实用,有效的估算最佳光滑量的方法,用广义交叉验证法估计正确的平滑程度。同年,Gull和Daniell提出了从不完整且嘈杂的数据中重建图像的方法。该方法使用了最大熵方法,可以应用于几乎任何类型的光学图像处理。
Schlimmer和Granger于1986年讨论了在有噪声的情况下如何进行渐进式学习(Incremental Learning),他们提出了一个以心理和数学结果为指导的解决方案,并报道了一些关于其性能的实证分析。2000年Rosenblum等学者在生物领域对有噪声的数据进行了分析,他们使用相位同步的概念来分析有噪声的非平稳的双变量数据。并将其应用于多道脑磁图和帕金森患者的肌肉活动记录。 2010年Barbosa和Feng提出了一种利用嘈杂的标签作为训练数据在Twitter消息(推文)上自动检测情绪的方法,并通过实证检验认为该解决方案比以前更有效,而且对于偏置的(biased)和噪声数据更加稳健。
主要事件
年份 | 事件 | 相关论文/Reference |
1978 | Craven和Wahba对平滑样条曲线(smoothing splines)进行了讨论,提出了一种实用,有效的估算最佳光滑量的方法 | Craven P.; Wahba G. (1978).Smoothing noisy data with spline functions.Numerische Mathematik. 31(4): 377–403. |
1978 | Gull和Daniell提出了从不完整且嘈杂的数据中重建图像的方法 | Gull S. F.; Daniell G. J. (1978). Image reconstruction from incomplete and noisy data.Nature272: 686–690. |
1986 | Schlimmer和Granger讨论了在有噪声的情况下如何进行渐进式学习(Incremental Learning) | Schlimmer J. C.; Granger R. H.(1986).Incremental Learning from Noisy Data.Machine Learning.1(3):317–354. |
2000 | Rosenblum等学者在生物领域对有噪声的数据进行了分析,他们使用相位同步的概念来分析有噪声的非平稳的双变量数据 | Rosenblum M.; Tass p.; Kurths J.; Volkmann J.; Schnitzler a.; Freund H.(2000). DETECTION OF PHASE LOCKING FROM NOISY DATA: APPLICATION TO MAGNETOENCEPHALOGRAPHY. Chaos in Brain?: pp. 34-51. |
2010 | Barbosa和Feng提出了一种利用嘈杂的标签作为训练数据在Twitter消息(推文)上自动检测情绪的方法 | Barbosa L.; Feng J. (2010). Robust sentiment detection on Twitter from biased and noisy data. Proceedings of the 23rd International Conference on Computational Linguistics: pp 36-44. |
发展分析
瓶颈
噪音是客观存在的,它并不像一些研究手段/模型那样存在发展瓶颈。但噪音的存在会影响一些算法的表现和理论的实用性,如PAC学习框架假设数据是无噪音的,这导致其在实际工作中的指导作用非常有限;又如提升方法(boosting)对噪音数据敏感,学习器学习效果不稳定。
未来发展方向
算法的稳健性一直都是机器学习领域的一个关注点,如早期Holmstrom等学者通过注入噪音提高ANN的泛化能力。目前随着人工智能研究向通用人工智能方向突破,学习算法的泛化能力会变得更加重要。
By Yuanyuan Li