2017/04/26 15:01

基于长短期记忆循环神经网络的对话文本主题分割

引言

主题分割（Topic Segmentation）是将一个文档（如新闻节目、演讲报告以及会议等）按照主题的转移或变化划分成若干个主题段落，使每个主题段落内表达的主题连贯一致，而与相邻的主题段落所描述的主题不同。针对不同的应用领域和任务需要，上述提及的“主题”的定义也往往会不同。例如：当我们面对的主题分割对象是新闻节目时，这里的主题应该是指一则新闻；而当对会议进行主题分割时，这里的主题往往是会议的议程，可能包含有人员介绍、议题介绍、集体讨论以及总结这四个程序。主题分割对于冗长的文本和语音内容内的导航，定位，信息抽取以及摘要等有着重要意义。

目前主题分割的主要方法有以下几类：

(1).基于词汇分布变化。其基本的思路是主题的变化是由所用词表的变化体现的，通过统计方法刻画文档中词汇变化的剧烈程度，词汇变化剧烈的位置可以判定为主题分割的边界。

(2).基于生成模型。这一类方法是站在文档生成的角度，认为文档是从一系列的主题生成的，其中的每个主题均有其特有的词的分布。当主题变化时，词的分布也发生变化，于是我们可以基于观测到的文档的词推理得到这些主题，边界也就相应确定了。

(3).基于语言特征。该类方法试图从语料中提取某种韵律特征或者词汇特征, 研究这些特征与主题变化之间的关系来确定主题边界。如基于线索词，停顿，话语重叠，说话人变化等特征的决策树分类方法。

本文提出了基于长短期记忆（Long Short-Term Memory，LSTM）循环神经网络（Recurrent Neural Network， RNN）的对话文本主题分割模型。通过模型自动从数据中学习句子、说话人以及上下文的表示，克服传统有监督机器学习模型需要大量特征工程的问题。在英文会议语料上的实验验证了本文的基于LSTM的对话文本主题分割模型对提升主题分割效果的有效性。

基于长短期记忆循环神经网络的主题分割模型

本文的方法将主题分割看做序列分类任务，即对文档中的每一个句子预测当前句子是否是新一个主题段落的起始句。模型通过两个LSTM分别对句子和句子序列进行了向量表示。另外针对对话文本包含的说话人信息，模型将其同样进行了向量表示，最后结合该说话人向量，对得到的当前句子和上文信息的向量进行分类得到分割结果。

基于LSTM的主题分割模型共有三层（不包括输入层以及向量查找层）。第一层使用句子级LSTM将对话文本中的每一个句子分别表示成一个向量，第二层使用文档级LSTM对当前句子和说话人信息结合已输入的上文生成一个向量表示，第三层使用全连接的Softmax层进行分类输出当前句在两个类别上的概率。图 2展示的是基于LSTM的主题分割模型结构。

图2.基于LSTM的主题分割模型（xi为第i个词的向量，si为第i个句子的向量，ai表示第i个句子的说话人向量，hi为前i个句子的表示，yi为对于第i个句子预测是否是新主题段落起始句的概率分布）

实验结果与结论分析

1.实验数据

本文使用AMI（Augmented Multi-party Interaction）会议语料作为实验数据集。AMI会议语料由AMI项目收录总时长达100个小时的139个会议而成。所有的会议以英语作为交流语言。在这其中，我们随机选取了20个会议作为测试集，19个会议作为验证集，其余100个会议为训练集。实验数据的统计信息如表 1所示。

2.评价指标

本文采用了国际上被广泛用于主题分割任务的两个评价指标，分别是Pk以及其改进的指标WD。两者的计算类似，都是在分割结果上每个时刻移动一个固定大小的窗口，然后在窗口内计算错误惩罚，最终求得平均。但两者不同之处在于，Pk的错误惩罚考察的是窗口两端的句子是否位于同一个段落的结果与正确分割的结果是否一致，而WD计算每个窗口的代价是根据窗口内所包含的分割边界个数是否与正确分割结果中一致。两者计算公式如下：

式中P为预测（Prediction）的分割结果，R为正确（Reference）的分割结果，bs(i,i+k)表示的是在分割结果S中从第i个句子到第i + k个句子的这k + 1个句子的窗口内所包含的分割边界的个数，k值通常取平均段落长度的一半。Pk和WD都是度量分割错误的指标，值越小表示分割错误越少，说明分割效果越好。完全正确的分割Pk和WD均为0。

3.实验结果

我们的模型在训练过程中更新词向量矩阵和说话人向量矩阵，在训练和测试过程中原始句子反向输入。结果如表 2所示。我们的对比方法包括：

(1).Random代表的是随机分割的方法，按正确分割结果的段落数进行随机的分割。

(2).Even代表的是等距离分割的方法，以正确分割结果的平均段落长度进行分割。

(3).LexicalSVM 代表的是Georgescul等人的方法，使用词袋模型表示句子，句子向量的每一维等于该维对应词在当前句中的tf-idf值，然后对于每两个相邻句子的间隔位置，将其左右窗口（每个窗口包含k个句子）的词汇分布向量对应元素相乘得到特征向量，最后通过SVM进行二元分类。

从结果中我们可以看到文本的方法的主题分割效果最佳。这也说明了使用LSTM对序列数据进行表示的有效性。

为了分析LSTM模型各选项（如词向量训练，句子反向输入，增加说话人向量表示等）对主题分割结果的影响，我们在包含所有选项的情况下，每一次去掉其中一个选项进行实验，实验结果如图 3所示。我们可以看到，去掉模型中任一个选项都将使主题分割效果变差，其Pk和WD均有不同程度的升高。特别的，去掉句子反向输入所带来的影响最大，说明模型在训练过程中学习到了处于新主题段落起始位置的句子其开头往往带有明显指示话题转移的标识这一语言现象。

图3. LSTM模型各选项对性能的影响

结束语

本文针对对话文本的主题分割任务，提出了基于长短期记忆循环神经网络LSTM的主题分割方法，利用LSTM对序列数据的记忆和学习能力来分别对句子以及句子序列所构成的上下文信息进行表示，并利用说话人信息进行主题分割。在会议语料上的实验结果验证了该方法的有效性。

作者：尹庆宇、王炳浩

参考文献:

[1].Mikolov T, Zweig G. Context dependent recurrent neural networklanguage model[C]//SLT. 2012: 234-239.

[2].Graves, A,Mohamed, A.-R, Hinton, G. Speech recognition with deep recurrent neuralnetworks[J]. 2013, 1(2003):6645-6649.

[3.]Kalchbrenner N, Blunsom P. Recurrent Continuous TranslationModels[C]//EMNLP. 2013, 3(39): 413.

[4].Yann L C, YoshuaB, Geoffrey H. Deep learning.[J]. Nature, 2015, 521(7553):436-44.

[5].Graves A. LongShort-Term Memory[J]. Neural Computation, 1997, 9(8):1735-80.

[6].Lee J Y, Dernoncourt F. Sequential Short-Text Classificationwith Recurrent and Convolutional Neural Networks[J]. arXiv preprintarXiv:1603.03827, 2016.

[7].Mccowan I,Carletta J, Kraaij W, et al. The AMI meeting corpus[C]. In: ProceedingsMeasuring Behavior 2005, 5th International Conference on Methods and Techniquesin Behavioral Research. L.P.J.J. Noldus, F. Grieco, L.W.S. Loijens and P.H.Zimmerman (Eds.), Wageningen: Noldus Information Technology. 2005:28--39.

[8].Bastien F, Lamblin P, Pascanu R, et al. Theano: new featuresand speed improvements[J]. arXiv preprint arXiv:1211.5590, 2012.

[9].Pennington J, Socher R, Manning C D. Glove: Global Vectors forWord

Representation[C]//EMNLP. 2014, 14: 1532-1543.

本文来源于哈工大SCIR

原文链接点击即可跳转

哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

理论理论论文LSTM循环神经网络对话文本主题分割模型NLP哈工大