2019/01/07 13:08

文本舆情挖掘的技术探索和实践

摘要

用户的文字表达是舆情信息的重要组成部分之一。自然语言处理技术（Natural Language Processing，即NLP）可以帮助我们提取文本中的有效信息，理解和挖掘用户的观点、情感和需求。这里我们通过影视剧集的评论分析，介绍爱奇艺在文本舆情挖掘方面的技术探索和实践。

背景

作为以科技创新为驱动的娱乐公司，爱奇艺努力为用户提供丰富、高品质和智能化的专业服务。舆情分析是理解用户的一个重要方面。用户在观看视频或使用产品后，通过各种方式表达着自己的情感和观点。如对电视综艺节目内容本身的热议、对演员角色的喜爱和吐槽、对产品的意见都是舆情的内容。针对这些舆情的挖掘和分析可以更直观更清晰的显示用户的关注点和主观感受。

整个舆情分析的内容可以包括文本、图片、音频等多种形式，数据的来源也多种多样。要想从多维度全面深入的分析，就要结合技术和经验的许多知识是个系统性工程。我们只关注文本评论，讨论一些利用NLP技术进行舆情分析的探索和实践。

主要内容会集中在利用词法和句法分析技术、提取用户观点（包括用户评论对象和相关评价词）、情感、聚焦点等反映用户关注焦点和主观感受的特征。如，电视剧《你和我的倾城时光》中部分用户评论会作为示例，并展示具体分析过程。

功能

图1 单句文本中观点和情感的识别

爱奇艺有着大量的影视剧、综艺和动漫资源。我们观看的同时也会产生大量弹幕、剧集和泡泡圈评论等语料。每一条用户的评论都可以看做文本舆情分析的基本单位。虽然文本评论属于非结构化数据，用户的表达也比较随意，但是我们通过NLP 技术可以转化为结构化有效信息，提取出用户对某个评价对象的观点意见和情感表达。

以用户的单句评论为示例，我们的舆情分析可以提取和归纳出下面多种信息：如图1中电视剧《你和我的倾城时光》中一条示例评论， “颖宝的演技一直都有进步！期待你和我的倾城时光”。我们可以得到的结构化信息包括：

这条评论的整句情感倾向“正向”；
用户评论的评价对象，“颖宝的演技” 和《你和我的倾城时光》；
针对评价对象的评价词，“有进步”评价颖宝的演技和“期待”评价《你和我的倾城时光》；
用户对评价对象的情感倾向，在正向评价颖宝的演技和《你和我们的倾城时光》；
划分用户评价的观点到预先设定的类别，”颖宝的演技“属于演员类和《你和我的倾城时光》属于整体评价类。

图2 整体文本信息的分类观点

（本示例为“你和我的倾城时光”中演员，剧情，视觉音效三个维度的分类观点）

图3 《你和我的倾城时光》每日的情感分布

上述只是单句级别的观点分析和情感识别，表达了单个用户的态度和感受。影视剧集的舆情分析中还需要用户群体整体感受的归纳。尤其是用户群体对特定方面的感受聚合。比如用户喜欢哪个演员、喜欢演员的哪个方面、剧集本身的情节如何等等。

我们的舆情分析在单句分析的基础上，也包括了观点和情感归纳的功能。如图3中，展示了利用大量评论语料，从《你和我的倾城时光》中演员、剧情、视觉音效三个特定维度的观点总结。分析的语料中，大多数的用户表达了对演员和剧集的喜爱。

如图4，是另外一种用户整体情感态度的归纳，是《你和我的倾城时光》在某段日期上的情感分布。这是在单句情感分析的基础上合并统计后的结果，同时也反映了用户对剧集的喜爱程度。

算法和流程

图4 文本舆情分析中观点提取和情感分析的流程图

从图1到图3中的分析过程中主要会用到NLP技术中词语和句子级别的语义理解，具体会涉及到多个基于机器学习和深度学习的NLP模型。图1，是我们这里讨论的文本舆情分析的整体框架图。从每个用户的评论语料的输入到分析结果的输出，是通过管道串联的方式连接在一起。其中包括词法分析、观点识别、关系提取、情感分析、文本分类等多个模块。输出的分析结果可以归结为用户单句的观点和情感（如上面图1所示的分析结果）以及用户整体观点和情感的分类（如图2和图3所示的分析结果）。

整个文本分析流程中词法分析是第一步，也是后续分析中最重要的基础。爱奇艺的词法分析服务已经广泛应用在公司多个亿级流量的业务线。它包括基于CRF的分词服务实体识别、词权重、实体链接等多种服务。我们的这里重点介绍的观点提取和情感分析也主要基于这个服务的分词功能。

词法分析之外，流程中重要的部分包括：

1) 观点的提取，即用户评价对象、评价词的提取和评价词与评价对象之间关系的确定：

图5 评价对象的提取和评价词评价对象关系的确定

评价对象的提取是寻找用户想要表达观点的对象。评价词的提取是确定用户具体想表达的观点内容。如图5（同图1的示例）绿色字体的词语或者短语展示了观点，提取模型提取出的用户评价对象和可能对应的评价词。为简化任务，我们可以仅考虑显式表达的提取。我们采用了NLP中序列标注的方式提取评价词和评价对象。通过数据集中分别标注评价词和评价对象，从而训练模型推断单个评论中对应观点和评价词的位置。基于双向LSTM与CRF的模型 [1] 在我们自建的数据集中表现较好。

评价对象和评价词之间关系的确定是用户观点理解的另外一个重要组成部分。见图5，我们会通过关系提取的方式确定绿色关键词或者短语之间的关系，比如在示例中，“有进步”在描述“
颖宝的演技”， ”期待”在描述《你和我的倾城时光》，而不是在描述”颖宝的演技“。这样的方式不光可以处理示例中评价词和评价对象之间一对一的关系提取，还可以处理评价词和评价对象之间多对多的情况。

我们关系提取的模型经历了规则为主、简单模型和优化词语特征，到引入注意力机制等迭代，目前采用了基于双向GRU与注意力机制的分类模型。其中注意力机制部分是一种基于词和句子级别的自注意力机制[2,3]。通过词和句子级别注意力机制的引入，在我们的数据集上解决了加权重点词和解决部分标注噪音的问题。

2) 整句和对特定评价对象的情感分析：

用户情感的解析是舆情分析中比较重要的部分。用户单句评论往往会表达一个明显的情感倾向。这个可以参照图1中的结果1。我们这里跟大多数场景中一样，归纳情感为正中负三种。整句情感体现了用户整体的情感表达，这是句子或者段落级别的文本情感分析。但是用户表达比较复杂，含有多种情感的时候需要对用户每个观点对象进行情感分析，即对用户的每个观点分别给予正中负三种情感倾向。这个可以参照图1中的结果4。具体的算法我们在判断整句情感和对特定评价对象的细粒度情感时，都采用了基于双向LSTM的模型，并在其中引入注意力或者门的机制[4,5]，用于强化特定评价词对评价对象的作用。

3) 观点的聚合：

单句级别的观点分析和情感识别，只是单个用户的态度和感受。作为用户群体，我们需要某些特定维度上的观点总结。参考图2中的示例，我们再算法上利用了单句的观点分析结果，再加上基于CNN的分类模型[6]，在事先设定好的维度下聚合所有用户的观点。

总结和规划

通过电视剧评论的分析，介绍了一些利用深度学习模型和NLP技术从文本评论中提取用户观点和情感的方法，包括如何确定用户的评价对象、评价词和情感类别。结合这些模型和技术可以挖掘用户对影视内容的主观感受，作为基石之一，为深入的理解用户、内容运营、影视评估提供智能参考。另外，这里我们虽然主要讨论影视评论上应用，但上述流程作为一个基本通用流程，还可以应用到对产品、艺人的舆情分析中，理解用户对这些方面的观点和情感。

我们还在进行更多的尝试和迭代。功能方面，虽然用户的基本观点和情感可以被提取和聚合, 但还需要更加合理的找出用户的真正关注点，和接受程度；数据层面、用户对影视剧、艺人、产品的关注点是有所不同的，需要在不同场景积累不同的标注文本数据；模型层面，用户的表达方式还是多种多样的，口语化，显示和隐式的表达都会出现，无法通过单一的模型解决所有问题，更多的特定场景模型优化和迭代需要持续进行。

*如果对文本观点提取和情感分析的功能感兴趣，可以在微信小程序中进行体验。搜索‘爱奇艺AI体验中心’进入‘舆情分析’即可。

文献引用

1. Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360, 2016.

2. Zhou P, Shi W, Tian J, et al. Attention-based bidirectional long short-term memory networks for relation classification. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2016, 2: 207-212.

3. Lin Y, Shen S, Liu Z, et al. Neural relation extraction with selective attention over instances. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016, 1: 2124-2133.

4. Yang Z, Yang D, Dyer C, He X, Smola AJ, and Hovy EH. Hierarchical attention networks for document classification. In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2016), 2016.

5. Zhang M, Zhang Y, Vo D-T. Gated neural networks for targeted sentiment analysis. In Proceedings of AAAI Conference on Artificial Intelligence (AAAI 2016), 2016.

6. Kim Y. Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882, 2014.

爱奇艺技术产品团队

爱奇艺做一家以科技创新为驱动的伟大娱乐公司，用大数据指导内容的制作、生产、运营、消费。并通过强大的云计算能力、带宽储备以及全球性的视频分发网络，为用户提供更好的视频服务。

工程自然语言处理情感识别文本分析文本分类机器学习深度学习词法分析关系提取注意力机制

4 1

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

关系提取技术

关系抽取任务需要检测和分类一组工件中的语义关系提及，通常来自文本或XML文档。该任务与信息提取（IE）的任务非常相似，但是IE另外需要去除重复关系（消歧），并且通常指的是提取许多不同的关系。

来源：A Review of Relation Extraction Wikipedia

自注意力技术

自注意力（Self-attention），有时也称为内部注意力，它是一种涉及单序列不同位置的注意力机制，并能计算序列的表征。自注意力在多种任务中都有非常成功的应用，例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系，这种内部关系对于翻译以及序列任务的性能非常重要。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

词法分析技术

词法分析是计算机科学中将字符序列转换为标记序列的过程。进行词法分析的程序或者函数叫作词法分析器，也叫扫描器。词法分析器一般以函数的形式存在，供语法分析器调用

来源：维基百科

文本分析技术

文本分析是指对文本的表示及其特征项的选取；文本分析是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。

来源：百度百科

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

爱奇艺机构

2010年4月22日正式上线，推崇品质、青春、时尚的品牌内涵如今已深入人心，网罗了全球广大的年轻用户群体，积极推动产品、技术、内容、营销等全方位创新。企业愿景是做一家以科技创新为驱动的伟大娱乐公司。于2018年3月29日在纳斯达克上市。

http://iQIYI.COM