Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

基于深度信念网络的音乐情绪分类算法研究

随着娱乐媒体行业的发展,音乐已成为了人们生活中必不可少的一部分,但是面对海量的音乐数据,如何根据不同环境以及用户的不同心情推荐出合适的音乐已成为近些年研究的热点问题。在此背景下,基于情绪的音乐分类任务受到了越来越多的关注。音乐是抒发人类生活情感的一种艺术,因此可以通过计算机技术提取音乐特征识别音乐包含的情绪。本文基于深度信念网络,结合卷积神经网络提出了一种音乐情绪分类算法。实验证明,该方法在音乐情绪分类任务上较传统机器学习方法和原始深度信念网络都有较好的效果提升。

近年来互联网技术快速发展,很多音乐平台都为用户提供了在线数字音乐服务,以方便用户获取音乐。但随着音乐数据的激增,根据音乐的名称、艺术家等文字信息的传统分类已不再能满足人们的需求。因此急需引入新的音乐信息来为听众提供更智能的音乐选择类别。音乐是传达情感的艺术,情绪感受是音乐最重要的本质特征之一。一项针对音乐网站Last.fm的研究表明,情绪标签是用户最常打的标签之一[1]。基于情绪将音乐分类的方式,从音乐感受出发能为听众提供更大的方便。

传统的基于情绪的音乐分类算法一般分为3个部分:信号预处理、信号特征提取、分类算法识别。其中提取的音乐特征需要基于音乐和心理学的知识手工选择。这种方法很难得到好的特征表示,对特征的优化也将非常困难。除此之外,传统的机器学习方法利用的是浅层的网络结构,一般只含有一个非线性特征层,已无法满足解决复杂的自然信号如语音信号、自然语言等问题。

近年来,深度学习人工智能领域取得了较好的成果。它模仿人脑处理信息的机制,采用多层结构依次训练网络来从原始数据中提取复杂的结构表示。其中Hinton在2006年提出了深度信念网络(Deep Belief Network,DBN),该网络可以自动学习特征而不依赖人工提取,在很多领域都表现出了较好的效果。[2]针对讲话者区分、音素检测等任务,使用了加入卷积的深度信念网络来处理声学信号,其性能要优于传统的声学特征,梅尔倒谱系数(MFCC);[3]中结合DBN强大的特征提取能力和高斯混合模型-隐马尔可夫模型(GMM-HMM)序列进行建模的优越性,在大词汇量的语音识别任务中取得了很好的效果。

本文对深度信念网络进行了研究,并针对其在应用上的优缺点结合卷积神经网络中的卷积层的思想,提出了一种新的基于情绪的音乐分类算法。本论文通过实验将传统MFCC特征方法和DBN方法进行对比,并对优化后的算法进行实验测试。实验表明,加入卷积后的深度信念网络较原始网络有更好的分类性能。

1传统音乐情绪识别

音乐信号具有高维度高冗余的特点,因此在传统的音乐情绪识别方法中通常需要先进行一系列的预处理,然后再提取合适的音乐特征,最后将提取到的特征进行统计训练,利用分类算法识别音乐情绪类别[4]。传统方法的一般流程如图4所示。

图4.传统方法处理流程

1.预加重。音乐信号的高频部分一般能量较低,需要使用滤波器滤除低频干扰,来更易获取高频频谱。这个阶段就是预加重,信号的方程式为: ,其中是预加重系数

2.分帧。音乐信号是一种非平稳信号,但由于人体发音器官的相关原因,音乐信号又具有短时平稳的性质。为此,需要将音频截成一段段比较平稳的片段。截取的长度需要既能保证片段的平稳、又能方便处理。

3.音乐信号中时常会出现一些大峰值信号,使信号不够平滑难以处理。所以还需要对分帧的信号进行加窗操作来平滑信号,加窗信号为:。一般常用的窗函数有汉宁窗、海明窗、布莱克曼窗等。本文在实验中使用了海明窗进行处理。海明窗函数为:4.静音帧检测。音乐信号中有时还会存在不具有信号参数特征的静音帧,影响识别的结果。该部分可以设置基于音频信号短时能量的阈值来检测静音帧。若能量低于设定的阀值,则将其去除。本论文中,设定阀值为0.1[5]

5. MFCC特征提取。提取特征的好坏直接关系到最终输出的结果。MFCC特征是声学任务中最常用的特征之一。人类的耳蜗相当于一组滤波器,能够通过过滤不同频段、带宽等特征来区分不同的声音。MFCC特征就是在模仿这种能力。音乐信号的频率与梅尔倒谱系数的关系如下:
从公式中可以看到,对于频率小于1000Hz的声音信号,梅尔滤波呈线性相关,频率大于1000Hz时则成对数关系。MFCC提取过程如图7所示:信号经过预处理后,通过快速傅里叶变换(FFT),求得各帧信号的频谱信息;然后通过平方运算得到每一帧的功率谱;再设计一组梅尔滤波器,对上一步得到的幅度谱滤波。计算每个滤波器组输出的对数能量;最后对上一步的输出结果做离散余弦变换(DCT)后即可得到MFCC特征。

图7.MFCC特征提取过程

提取信号的MFCC特征后,可将特征输入到分类算法中进行模型训练,来学习情绪标签和音乐特征之间的联系。常见的分类算法有:支持向量机算法(SVM)、K近邻算法、决策树等。

2基于深度信念网络的情绪分类

2.1深度信念网络

深度信念网络是Hinton在2006年提出的一种能自上而下自动学习特征的多层神经网络。它由多个受限玻尔兹曼机(RBM)堆叠而成。其结构如图8所示,每相邻两层组成一个受限玻尔兹曼机。自下而上,前一个RBM的隐层即为下一个RBM的显层。前一个RBM的输出即为下一个RBM的输入,以此类推逐层进行训练,直至最后一层[6]

8.DBM结构

通过训练学习即可得到各层的链接权重和节点偏置,完成网络初始化。再采用反向传导算法(BP)自上而下有监督的对深度信念网络进行微调,来克服易陷于局部最优和训练时间长的缺点。尽管深度信念网络表现出了强大的特征学习能力,但由上图原理可知,网络的训练需要大量的样本数据,且会生成更大数目的参数权值,一方面基于情绪的音乐分类问题缺少大量的样本数据,另一方面大量参数的生成会耗费巨大的时间,不利于实际应用。

2.2基于卷积DBN的音乐情绪分类

由上文可知深度信念网络在数据训练中存在一些无法克服的缺点。要想解决此问题就需要尝试减少神经网络训练的参数数目,常用的技术就是权值共享方法。权值共享是卷积神经网络中卷积层采用的一种思想。与普通的神经网络全连接、参数不共享不同,卷积神经网络具有局部连接、权值共享的特点。所谓的权值共享,即指一层中多个节点的连接共享相同的一组参数。共享参数的可行性主要来源于生活中很多对象都有局部相关性,例如音乐中每一帧信号并不是孤立的,正是连续各帧共同作用,才将情绪传达给听众。因此,将卷积神经网络与DBN相结合,利用权值共享技术能显著减少参数的数量,还能反映音乐传达情绪的本质,具有重要的意义。

与传统机器学习方法不同,DBN是将信号的原始时域特征作为输入,并通过逐层训练自动学习输入信号的特征。常用的时域特征有短时平均幅度差、短时能量、短时自相关系数等。本文采用短时能量作为深度神经网络的原始输入特征。短时能量能够反映声学信号的能量随时间变化的过程。通过短时能量特征能明显区分清浊音段。设一段音乐信号为x(n),则其短时平均能量为:但原始的时域特征维度很高,存在大量的冗余和噪音。因此需要对输入的训练数据进行降维处理。本文将采用主成分分析(Principal Component Analysis,PCA)的方法。主成分分析,是考察多个变量间相关性的一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构。

在训练数据经过降维处理后,输入DBN中进行训练,来自动学习数据的特征信息,最后将输出数据通过深度学习中常用的Softmax分类函数进行数据处理,完成分类任务。具体基于DBN的音乐情绪分类结构如图9所示。

本文针对原始深度信念网络的缺点提出的结合卷积神经网络的DBN与原始DBN不同。它将卷积神经网络中的卷积层和下采样层共同加入到了DBN中,如下图10所示,在神经网络的第二层有6个节点,在第三层具有2个节点,如果使用全连接的话需要训练的参数为12个,由于采用了权值共享并加入了下采样需要训练的参数变为了3个。卷积层的输出会作为下一层受限玻尔兹曼机的隐藏层节点。

  图9.基于DBN的音乐情绪分类      

      图10.基于卷积DBN的音乐情绪分类

3 对比实验分析

实验共使用三种方法进行音乐情绪的分类。第一组使用MFCC系数作为输入特征;第二、三组使用原始的时域特征作为输入,并分别采用DBN和加入卷积的DBN学习特征。为了保证实验的可比性,都将使用softmax作为分类算法。

3.1数据集

 由于自建基于情绪的音乐分类数据集需要花费大量的时间和资金,且需要一定的音乐和心理学知识,因此本论文采用了美国德雷塞尔大学音乐和娱乐技术实验室(Music and Entertainment Technology Laboratory ,MET-lab)的MoodSwings数据集。该数据集以一种协同式在线游戏的方式收集用户对音乐情绪的打分,并运用一些游戏规则和激励方式来尽量保证标记的客观性。游戏是目前比较科学的情绪表征空间,V-A空间进行的[7],如图11,V维度是愉悦程度,代表情绪给人感觉的正或负;A是活化程度,代表音乐的能量高低。

11. V-A标记游戏

每组实验样本都采用MoodSwing数据库中歌曲片段,随机选择800首歌曲作为训练样本,其余200首歌曲作为测试样本。样本歌曲的情绪被分为4个类别。

3.2基于传统方法和基于深度信念网络音乐情绪分类对比

第一组实验采用MFCC系数作为输入特征。使用30ms帧长、20ms窗口的海明窗对音乐进行分帧处理,然后使用Matlab下工具箱MIRToolBox对每一帧的音频片段提取N维的MFCC特征值,系统架构如图12:

图12.传统音乐情绪分类架构

第二组实验使用Matalab的MIRToolBox工具箱对每首歌曲的每一帧进行短时能量的提取,得到2000X1000维度的矩阵。然后利用PCA进行降维处理,得到1200X1000维的转换后的数据,将这些特征数据输入到深度神经网络进行训练得到模型。

第一组实验与第二组实验的对比结果如下。为了验证歌曲数目对模型分类性能的影响,每次实验利用N首歌曲当做训练样本。第一组中,使用全部N首进行模型的训练。第二组中,采用2/3N的样本用于无监督的训练,1/3N的样本用于有监督的微调。此次采用4层DBN,两个隐藏层分别为800个神经元节点和300个神经元节点,最后的输出层有100个神经元节点。

实验结果如下表1所示:

表1.MFCC与DBN提取特征对比

歌曲数

MFCC+SoftMax

短时能量+DBN+softmax

200首

35%

32%

400首

40%

45%

600首

50%

56%

800首

53%

62%

从数据中可以看到,两种分类方法的分类准确度都随着样本数据的增长而增长。但是使用MFCC+softmax的方法的准确度增长速度逐渐减慢,而采用深度神经网络的分类方法,仍在稳定的增长。这说明在大量样本数量下,深度学习方法将比传统方法分类效果更好。而且DBN可以使用无标签数据进行训练,这更符合实际场景数据的需要。

另一方面可以看到,在样本数量非常少的情况下,使用DBN提取到的特征性能并不如MFCC特征。这也证实了深度学习网络需要一定数量的样本进行训练才能更好的拟合测试样本。

3.3加入卷积操作的DBN

上节实验显示使用原始DBN进行音乐特征的提取,需要大量的样本数据进行训练,且需要花费大量的训练时间。因此需要利用权值共享技术,将深度信念网络结合卷积神经网络来提高深度信念网络的性能。本实验在深度信念网络中加入卷积层,来对音乐的情绪进行分类。 实验结果如下表2:

表2.标准DBN和加入卷积的DBN对比

RBM个数

标准DBN

加入卷积的DBN

2个

4.5小时/59%

2.3小时/56%

3个

8.2小时/58%

3.8小时/59%

从数据可以看到,加入卷积层的DBN训练时长远小于原始DBN,这是权值共享带来的好处。然而还应该看到,进行音乐分类的准确度并没有显著提高,但这有可能是参数选择不当导致的后果。

加入卷积层来源于将卷积神经网络和深度信念网络结合的想法,没有具体的理论支持和严谨的推导,所以没有取得显著地性能提升。但是这种加入卷积的思想是值得深入研究的。

4.结论

基于情绪的音乐分类任务,是人工智能拥有情绪感知能力的初步尝试,能够为用户带来新的娱乐体验。本文针对音乐的情绪分类问题,分析研究了传统的机器学习方法的性能以及深度信念网络在音乐信号处理的能力,并将卷积神经网络与深度信念网络相结合,优化了深度信念网络在训练时需要大量数据样本来生成大量参数,耗时耗力的问题。实验显示,加入卷积的深度信念网络确实比原始网络在训练耗时上有较好的效果,但是也许因为参数设置的问题,其准确率并没有得到很大的提升,这也是之后工作需要进一步解决的问题。

参考文献

[1] 郭俊. 社会化数字音乐服务设计研究——以Last.fm的用户标签行为数据分析为例[D]. 中山大学, 2012.

[2]Deng L, Seltzer M L, Yu D, et al. Binary coding of speech spectrograms using a deep auto-encoder[C]//Interspeech. 2010: 1692-1695.

[3]Mohamed A, Sainath T N, Dahl G, et al. Deep belief networks using discriminative features for phone recognition[C]//Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on. IEEE, 2011: 5060-5063.

[4]王磊, 杜利民, 王劲林. 基于AdaBoost的音乐情绪分类[J]. 电子与信息学报, 2007, 29(9):2067-2072.

[5]张昕. 基于深度信念网络和隐马尔科夫模型的音乐自动分类算法研究[D]. 大连理工大学, 2015.

[6]Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2014, 18(7):1527-1554.

[7] Grimm M. Emotion estimation in speech using a 3D emotion space concept[J]. Robust Speech Recognition & Understanding, 2007, 16:381--385.

中国人工智能开放创新平台
中国人工智能开放创新平台

平台由贵阳市政府、英特尔及中国产业创新联盟共同打造,致力于深化AI产业结构发展,扶持AI初创企业,打造AI生态圈,集合众多海内外高校导师及行业大牛,撰稿深度分析专业技术及应用,为 智能+注入源源不断的活力。

入门深度信念网络情绪识别机器学习卷积神经网络信号处理
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

分类数据技术

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

离散余弦变换技术

离散余弦变换(英语:discrete cosine transform, DCT)是与傅里叶变换相关的一种变换,类似于离散傅里叶变换,但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数),在有些变形里面需要将输入或者输出的位置移动半个单位(DCT有8种标准类型,其中4种是常见的)。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

傅里叶变换技术

傅里叶变换(法语:Transformation de Fourier、英语:Fourier transform)是一种线性积分变换,用于信号在时域(或空域)和频域之间的变换,在物理学和工程学中有许多应用。因其基本思想首先由法国学者约瑟夫·傅里叶系统地提出,所以以其名字来命名以示纪念。实际上傅里叶变换就像化学分析,确定物质的基本成分;信号来自自然界,也可对其进行分析,确定其基本成分。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

高斯混合模型技术

高斯混合模型(Gaussian Mixture Model,GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

隐马尔可夫模型技术

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

主成分分析技术

在多元统计分析中,主成分分析(Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。

受限玻尔兹曼机技术

受限玻尔兹曼机(英语:restricted Boltzmann machine, RBM)是一种可通过输入数据集学习概率分布的随机生成神经网络。RBM最初由发明者保罗·斯模棱斯基于1986年命名为簧风琴(Harmonium),但直到杰弗里·辛顿及其合作者在2000年代中叶发明快速学习算法后,受限玻兹曼机才变得知名。受限玻兹曼机在降维、分类、协同过滤、特征学习和主题建模中得到了应用。根据任务的不同,受限玻兹曼机可以使用监督学习或无监督学习的方法进行训练。受限玻兹曼机也可被用于深度学习网络。具体地,深度信念网络可使用多个RBM堆叠而成,并可使用梯度下降法和反向传播算法进行调优。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~