文本分割 | 机器之心

简介

文本分割是将书面文本划分为有意义的单元（例如单词，句子或主题）的过程。该术语既适用于人类在阅读文本时使用的心理过程，也适用于在计算机中实现的人工过程，这是自然语言处理的主题。这一问题并不如想象的那样容易解决，因为虽然一些书面语言有明确的单词边界标记，例如书面英语的单词空格和阿拉伯语的独特的初始，内侧和最终字母形状，但这些信号有时含糊不清并且并不是存在于所有的书面语言中。

切割问题可以分为以下几类：

分词（Word segmentation）：分词是将一串书面语言分成其组成单词的问题。在使用某种形式的拉丁字母的英语和许多其他语言中，空间即是单词分隔符（单词分隔符），因为单词之间是不连续的。尽管这个概念具有局限性，因为即使在这种语言中也需要考虑词性和搭配的变化。此外，在另一些语言中，在书面语言中都找不到与单词空格字符相当的单词，如果没有它，分词就是一个难题。没有简单的分词符的语言包括中文，日语等。
Intent segmentation：Intent segmentation是将书面单词划分为关键短语（2个或更多单词组）的问题。
句子分割（Sentence segmentation）：句子分割是将一串书面语言分成组成句子的问题。在英语和其他一些语言中，使用标点符号，特别是句号/句号字符是一个合理的近似值。与分词一样，并非所有书面语言都包含标点符号，虽然这些标点符号可用于近似句子边界。
主题细分（Topic segmentation）：这一任务需要进行主题识别和文本分割。将文本分割为主题在某些自然处理任务中可能是有用的：它可以显着改善信息检索或语音识别任务的表现。在主题检测和跟踪系统以及总结问题的文本中也需要它。
其他分割问题

[描述来源：维基百科 URL：https://en.wikipedia.org/wiki/Text_segmentation]

发展历史

1999年，John Lafferty等人提出了一种自动将文本划分为连贯段的统计方法。该方法基于一种技术，该技术逐步建立指数模型以提取与标记的训练文本中的边界的存在相关的特征。这些模型使用两类特征：主题特征（topicality features）以新颖的方式使用自适应语言模型来检测主题的广泛变化，以及检测特定字的出现的提示字特征（cue-word features），这些特定字可能是特定于域的。该方法很好的平衡了灵活性和准确度。

2000年，Freddy Y. Y. Choi介绍了域独立的文本分割方法，他们使用排序方案和余弦相似性度量来制定相似性矩阵，并取得了优于当时技术水平两倍的表现。

分词是文本分割最基础的问题之一，也极大地影响了其后任务的表现。由于中文缺少天然的分隔符，许多研究都集中在中文分词上。基于字标注学习的方法始于Nianwen Xue (2003)。该工作使用一个字在词中的四种相对位置标签(tag)，即B、 M、E和S等字位，来表达该字所携带的切分标注信息，从而首次将分词任务形式化为字位的串标注学习任务。串标注学习是自然语言处理中最基础的结构化学习任务，在串标注的概率图模型中，两个串的各个节点单元需要严格一一对应，非常方便于使用各种成熟的机器学习工具来建模和实现。他的首次实现其实尚未充分使用串标注结构学习，而是直接应用了字位分类模型。Hwee Tou Ng and Jin Kiat Low (2004)和Jin Kiat Low et al. (2005)才是第一次将严格的串标注学习应用于分词，用的是最大熵（Maximum Entropy， ME）Markov模型。而Fuchun Peng，Fangfang Feng, and Andrew McCallum (2004)和Huihsin Tseng，Christopher Manning et al. (2005)则自然地将标准的串标注学习工具条件随机场引入分词学习。随后，CRF多个变种构成了深度学习时代之前的标准分词模型。

Andrew (2006)发表semi-CRF的第一个分词实现。然而，即使以当时的标准，号称直接建模的semi-CRF模型的分词性能却不甚理想。通常来说，直接建模会获得更好的机器学习效果，然而在semi-CRF直接应用于分词时，却一直很难兑现。之后，Sun et al. (2009)将包含隐变量的semi-CRF学习模型用于分词，才将其分词性能提升到前沿水平：前者是首个隐变量semi-CRF模型的工作，声称能够同时利用基于字序列和基于词序列的特征信息，并经验证明引入隐含变量能通过有效捕捉长距信息来提升长词的召回率；后者额外引用了新的高维标签转移Markov特征，同时针对性地提出了基于特征频数的自适应在线梯度下降算法，以提升训练效率。值得注意的是，线性链CRF模型的训练时间比对应的最大熵Markov模型会慢数倍，因为最大熵模型训练时间正比于需要学习的标签数量，而CRF训练时间则正比于标签数量的平方，但semi-CRF的训练比标准的CRF还要缓慢，因此极大地限制了该类模型的实际应用。

自从词嵌入（word embedding）表示达到了数值计算的实用化阶段之后，深度学习开始席卷自然语言处理领域。原则上，嵌入向量承载了一部分字或词的句法和语义信息，应该能带来进一步的性能提升。 Pavel Kuksa，Collobert et al. (2011)提出使用神经网络解决自然语言处理问题，尤其是序列标注类问题的一般框架，这一框架抽取滑动窗口内的特征，在每一个窗口内解决标签分类问题。在此基础上，Zheng et al. (2013) 提出神经网络中文分词方法，首次验证了深度学习方法应用到中文分词任务上的可行性。他们的工作直接借用了Collobert模型的结构，将字向量作为系统输入，其技术贡献包括：一，使用了大规模文本上预训练的字向量表示来改进监督学习(开放测试意义)；二，使用类似感知机的训练方式取代传统的最大似然方法，以加速神经网络训练。就结构化建模来说，该工作等同于Low et al. (2005)的字位标记的串学习模型，区别仅在于用一个简单的神经网络模型替代了后者的最大熵模型。由于结构化建模的缺陷，该模型的精度仅和早期Xue (2003)的结果相当，而远逊于传统字标注学习模型的佼佼者。

2014年，Pei et al. (2014)对Zheng et al. (2013)的模型做了重要改进，引入了标签向量来更精细地刻画标签之间的转移关系，其改进程度类似于Low et al. (2005)首次引入Markov特征到Ng & Low (2004)的最大熵模型之中。Pei et al.提出了一种新型神经网络即最大间隔张量神经网络（Max-Margin Tensor Neural Network, MMTNN）并将其用于分词任务，使用标签向量和张量变化来捕捉标签与标签之间、标签与上下文之间的关系。另外，为了降低计算复杂度和防止过拟合（所有神经网络模型的通病），该文还专门提出了一种新型张量分解方式。

2015年，Chen et al. (2015）针对滑动窗口的局部性，提出用长短期记忆神经网络（Long Short-Term Memory Neural Networks, LSTM）来捕捉长距离依赖，部分克服了过往的序列标注方法只能从固定大小的滑动窗口抽取特征的不足。Zhang et al. (2016)提出了一种基于转移的模型用于分词，并将传统的特征模版和神经网络自动提取的特征结合起来，在神经网络自动提取的特征和传统的离散特征的融合方法做了尝试。结果表明，通过组合这两种特征，分词精度可以得到进一步提升。

Cai et al. (2017）在Cai & Zhao (2016)的基础上，通过简化网络结构，混合字词输入以及使用早期更新（early update）等收敛性更好的训练策略，设计了一个基于贪心搜索(greedy search)的快速分词系统。该算法与之前的深度学习算法相比不仅在速度上有了巨大提升，分词精度也得到了进一定提高。实验结果还表明，词级信息比字级信息对于机器学习更有效，但是仅仅依赖词级信息不可避免会削弱深度学习模型在陌生环境下的泛化能力。

[描述来源：Zhao, H. et al. (2017). Chinese Word Segmentation: Another Decade Review (2007-2017). 中文信息学报, 2007, 21(3): 8-19. ]

主要事件

年份	事件	相关论文/Reference

1999	John Lafferty等人提出了一种自动将文本划分为连贯段的统计方法	Beeferman, D.; Berger, A.; Lafferty, J. (1999). Statistical Models for Text Segmentation. Machine Learning. 34(1-3): 177-210.
2000	Freddy Y. Y. Choi介绍了域独立的文本分割方法	Choi, F. Y. Y. (2000). Advances in domain independent linear text segmentation. Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference. pp 26-33.
2003	基于字标注学习的方法始于Nianwen Xue (2003)	Xue, N. (2003). Chinese Word Segmentation as Character Tagging. Computational Linguistics and Chinese Language Processing, 8(1): 29–48.
2004	Hwee Tou Ng and Jin Kiat Low (2004)和Jin Kiat Low et al. (2005)才是第一次将严格的串标注学习应用于分词，用的是最大熵（Maximum Entropy， ME）Markov模型	Ng, N. T. and Low, J. K. (2004). Chinese part-of-speech tagging: One-at-a-time or all-at-once? word-based or character-based? In Conference on Empirical Methods in Natural Language Processing. pp. 277–284.//Low, J. K.; Ng, H. T. and Guo, W. (2005). A maximum entropy approach to Chinese word segmentation. In Proceedings of the SIGHAN Workshop on Chinese Language Processing. pp. 448–455.
2004	Fuchun Peng，Fangfang Feng, and Andrew McCallum (2004)和Huihsin Tseng，Christopher Manning et al. (2005)自然地将标准的串标注学习工具条件随机场引入分词学习	Peng, F.; Feng, F. and McCallum, A. (2004). Chinese segmentation and new word detection using conditional random fields. In Proceedings of the international conference on Computational Linguistics. pp. 562–569.//Tseng, H.; Chang, P.; Andrew, G.; Jurafsky, D. and Manning, C.(2005). A conditional random field word segmenter for SIGHAN bakeoff 2005. In Proceedings of the SIGHAN workshop on Chinese language Processing, vol. 171.
2006	Andrew (2006)发表semi-CRF的第一个分词实现	Andrew, G. (2006). A hybrid Markov/semi-Markov conditional random field for sequence segmentation. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. pp. 465– 472.
2009	Sun et al. (2009)将包含隐变量的semi-CRF学习模型用于分词，才将其分词性能提升到前沿水平	Sun, X.; Zhang, Y.; Matsuzaki, T.; Tsuruoka, Y. and Tsujii, J. (2009). A discriminative latent variable Chinese segmenter with hybrid word/character information. In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics. pp. 56–64.
2011	Pavel Kuksa，Collobert et al. (2011)提出使用神经网络解决自然语言处理问题，尤其是序列标注类问题的一般框架，这一框架抽取滑动窗口内的特征，在每一个窗口内解决标签分类问题。	Collobert, R.; Weston, J.; Bottou, L.; Karlen, M.; Kavukcuoglu, K. and Kuksa, P. (2011). Natural Language Processing (almost) from Scratch. The Journal of Machine Learning Research. pp. 2493–2537.
2013	在此基础上，Zheng et al. (2013) 提出神经网络中文分词方法，首次验证了深度学习方法应用到中文分词任务上的可行性。	Zhang, L.; Wang, H.; Sun, X. and Mansur, M. (2013). Exploring representations from unlabeled data with co-training for Chinese word segmentation. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. pp. 311–321.
2014	Pei et al. (2014)对Zheng et al. (2013)的模型做了重要改进，引入了标签向量来更精细地刻画标签之间的转移关系	Pei, W.; Ge, T. and Chang, B. (2014). Max-margin tensor neural network for Chinese word segmentation. In Proceedings of the Annual Meeting of the Association for Computational Linguistics. pp. 293–303.
2015	Chen et al. (2015）针对滑动窗口的局部性，提出用长短期记忆神经网络（Long Short-Term Memory Neural Networks, LSTM）来捕捉长距离依赖	Chen, X.; Qiu, X.; Zhu, C.; Liu, P. and Huang, X. (2015). Long short-term memory neural networks for Chinese word segmentation. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. pp. 1197–1206.
2016	Zhang et al. (2016)提出了一种基于转移的模型用于分词，并将传统的特征模版和神经网络自动提取的特征结合起来，在神经网络自动提取的特征和传统的离散特征的融合方法做了尝试	Zhang, M.; Zhang, Y. and Fu, G. (2016). Transition-based neural word segmentation. In Proceedings of the Annual Meeting of the Association for Computational Linguistics. pp. 421–431.
2017	Cai et al. (2017）在Cai & Zhao (2016)的基础上，通过简化网络结构，混合字词输入以及使用早期更新（early update）等收敛性更好的训练策略，设计了一个基于贪心搜索(greedy search)的快速分词系统	Cai, D.; Zhao, H.; Zhang, Z.; Xin, Y.; Wu, Y. and Huang, F. (2017). Fast and accurate neural word segmentation for Chinese. In Proceedings of the Annual Meeting of the Association for Computational Linguistics.

发展分析

瓶颈

文本分割是自然语言处理的基础，其分割结果会对后面任务的表现有很大影响。像许多自然语言任务一样，文本分割面临着歧义带来的挑战，虽然目前文本分割的许多算法已经相当成熟，但如果能准确识别并处理歧义，就能进一步提升其表现。同理，未登录的词句（未登录词即没有被收录在分词词表中但必须切分出来的词，包括各类专有名词（人名、地名、企业名等）、缩写词、新增词汇、流行语等），也是比较难以处理的部分。

未来发展方向

一方面可以针对上述的问题进行进一步研究，如使用更大的语料库等；另一方面由于标注数据成本十分昂贵，开发无/弱监督算法也是一个研究热点。

Contributor: Yuanyuan Li

简介