微博的广泛流行不仅导致信息呈爆炸式增长,同时为互联网信息传播的方式带来了巨大的变革。人与人之间的互联、人与信息之间的互联高度融合,人人参与到信息的产生与传播过程,这种传播方式使得一条信息能够在短时间内传播到数百万计的用户[1,2]。然而,大量的用户生成信息(user generated content,简称UGC)也带来了诸如信息过载、虚假信息泛滥等问题,微博信息传播预测的研究为解决这些问题提供了可能。微博信息传播预测是指在掌握现有信息传播形态的基础上,依照一定的方法和规律对未来的信息传播趋势进行测算,以预先了解信息传播的最终过程和结果[3],为信息传播的干预提供依据。例如:研究用户的在线行为以及传播行为规律将有助于网络公司准确地把握用户的偏好,并将可能感兴趣的话题信息、其他用户或者用户社群推荐给该用户[4]。
微博信息传播预测中的两个主要元素是信息和用户,信息与用户之间存在相互作用。目前,根据预测任务的侧重点不同,可概括为“以用户为中心”、“以信息为中心”和“以信息和用户为中心”三个方面[5]。本文主要关注以用户为中心的研究,即以用户的兴趣和行为建模为基础,主要任务是用户传播行为预测。具体来说,预测用户是否会参与某信息的传播。在微博中,用户对信息的传播行为主要指转发行为[6,7]。本文将以微博中用户的转发行为为例,介绍微博用户传播行为分析与预测的研究工作。
1 转发行为影响因素
首先,对微博用户转发行为预测问题进行形式化定义。已知 p∈P 表示微博的发布者,u∈U 表示微博的接收用户,v∈V 表示微博信息。假设发布者p在t时间发布了微博v,则每个微博可以用四元组来表示< u,v,p,t > 。令ruvp表示用户u对该微博的转发态度。用户转发行为预测是在给定 < u,v,p,t > 的情况下,求解ruvp,即,在t' (t' > t) 时刻,核心用户 u 是否会转发用户 p在 t 时刻发布的微博信息 v 。其中,ruvp可以由多种形式来表示,比如布尔值、相对顺序、概率值等。图1展示了核心用户、微博以及微博发布者之间相互影响的关系,由图可见,用户的转发行为是多种因素共同作用的结果[8],这使得看似简单的问题变得具有挑战。Boyd等人[9]利用定性分析的方法研究Twitter上用户转发行为,通过对收集到的转发信息进行归类总结,列出用户转发行为产生的原因。本文综合以往研究内容,将用户转发行为产生的影响因素概括为两类——信息内容因素和群体影响因素。信息内容因素主要包括信息内容自身特点以及信息内容与用户兴趣的吻合程度:前者包括信息内容的流行程度(是否热门话题)、信息内容的丰富性(是否含有多媒体、图片等),后者指用户是否对此类信息感兴趣。群体影响因素主要包括信息发布者对用户的影响以及其他信息转发者对用户的影响。
图1 核心用户、微博、微博发布者之间的关系
2 转发行为预测方法
用户转发行为预测是指通过一定的手段学习用户的兴趣和行为规律,从而对未知的用户转发行为进行预测。按照预测基本假设的不同,用户转发行为预测方法可分为基于用户过往行为的预测、基于用户文本兴趣的预测、基于用户所受群体影响的预测以及基于混合特征学习的预测。主要使用的模型包括:协同过滤模型、主题模型、因子图模型以及分类模型等。
2.1 基于用户过往行为
基于用户过往行为的预测方法依据用户在预测时间点前的过往行为,预测用户未来的行为。该方法认为:用户的兴趣短时间内不会改变,用户转发微博的行为受用户兴趣所驱动[10]。因此,可充分利用已知的用户偏好或行为,预测未知的用户偏好或行为。用户过去转发了某些微博信息,则很可能还会对类似内容的微博信息感兴趣。
基于以上假设,Zaman [4]最先利用协同过滤模型预测用户的转发行为。协同过滤的概念来源于推荐系统,目前应用最广泛的是矩阵分解技术,其核心思想是:假设用户的兴趣只受少数几个因素的影响,因此将稀疏且高维的“用户-物品”矩阵分解为两个低维矩阵,通过用户对物品的评分信息来学习用户特征矩阵ui∈RK 和物品特征矩阵 vj∈RK,最后重构低维矩阵预测用户对物品的评分。类似的,用户与微博信息可构建“用户-信息”矩阵,此矩阵中,元素的值为1表示用户转发该微博信息。然而,不同于传统的商品推荐,用户转发信息的数据集中,由于新的信息不断出现,“用户-信息”矩阵是非常稀疏的,存在较严重的冷启动问题。因此,后续基于用户过往行为的预测研究工作致力于在传统协同过滤模型基础上融入丰富的特征,如用户属性特征、微博信息特征以及传播结构特征等[10-12]。其中,文献[10,11]对微博信息内容进行了关键词和主题抽取,把“用户-信息”矩阵转化为“用户-关键词”或“用户-主题”矩阵,在一定程度上缓解了数据稀疏导致的新信息冷启动问题。
2.2 基于用户文本兴趣
基于用户文本兴趣的预测方法认为,用户对某信息的转发行为源于用户对微博文本内容的兴趣。此类方法将用户历史微博信息视为该用户的伪文档,通过对用户进行文本兴趣建模,预测用户对未知信息的转发行为。
许多研究通过词袋模型 (bag-of-words) 对用户文本以及微博信息进行向量表示,然后计算文本相似度,相似度越大,用户转发该信息的可能性越大[7]。另一方面,以隐含狄利克雷分布 (latent Dirichlet allocation,简称LDA) [13] 为代表的主题模型及其变型被广泛应用于社会媒体用户文本兴趣建模任务中。在LDA模型基础上,Xu等人[8]提出混合的潜在主题模型解释用户转发行为的产生过程,该模型假设用户转发微博的文本来源于用户自身的兴趣分布、热点主题分布或其好友的主题分布。因此,用户微博中的每个词的生成方式取决于隐变量x, x服从每个用户的多项分布l。最后,将用户转发行为预测问题转化成求解每条文本生成概率问题:
类似的工作还有文献[14],作者提出,用户的转发行为遵循3W模式 < When,Who,What >,引入隐变量 c 表示该模式,用户的转发行为是基于特定的转发模式c以及文本主题z共同作用的结果,即,
Zhang等人[15]认为,用户的文本兴趣是随时间变化的,因此提出了基于分层狄利克雷过程(HDP)的非参数贝叶斯模型。该模型不仅能够对用户兴趣进行动态的主题建模,还融合了其他影响因素,如用户所受其他用户的影响。
2.3 基于用户所受群体影响
基于用户所受群体影响的预测方法的基本假设是,用户转发行为的产生主要由于其所受群体的影响。一般而言,用户转发行为所受的群体影响分为两方面:一方面来自于信息发布者的影响,另一方面来自于群体中其他人的转发行为的影响[15,16]。为了验证用户的行为主要受其亲密好友的影响这一假设,Zhang[16]利用准实验设计的方法设置对照组和干扰组,验证了用户之间局部影响力的存在。基于局部影响力和全局影响力的逻辑回归模型,有助于提升用户转发行为预测的结果。实验还表明:用户转发某微博的可能性与其好友中转发该微博的人数成正比,而与这些好友形成的社交圈数成反比。
因子图 (factor graph) 是对函数因子分解的表示图,在社会网络建模中得到了广泛应用。它将多变量函数描述为“二分图”,每一个因子图都包含两类节点——变量节点 (variable node) 和因子节点 (factor node),边只连接不同类型的节点。如果函数的因子受某些变量的影响,那么该因子节点和这些变量节点之间则建立边。Yang等人[17]提出了基于因子图模型的监督学习框架对用户转发行为进行预测,将用户与微博信息发布者以及该信息转发轨迹中其他转发者之间的文本兴趣、拟社会交互等因素等作为因子。Bian等人[18]除了考虑用户所受群体影响之外,还考虑了微博文本信息流行度的影响。在此以文献[18]为例,说明利用因子图模型对用户转发行为建模和求解过程。首先假设用户转发行为来自于3种影响因子:兴趣驱动的影响 fI (p,u,v)、社会关系驱动的影响 fS (p,u) 以及内容流行驱动的影响 fE (v),其因子图模型如图2所示,黑色方框表示因子,白色圆圈表示变量。模型的优化目标为最大化似然函数:
其中,A为训练集中所有转发行为集合,Z={z1,z2,…,z|A|}对应每个转发行为的隐变量。
图2 用户转发行为的因子图模型举例
通常,通过和积算法(sum- product algorithm)求解各个变量的边缘分布。假设rp,u,v ∈ {-1,1} 表示用户 u 是否转发由 p 发布的微博 v,R = {rp,u,v } 为待预测的用户转发行为集合,G 为当前网络拓扑结构,则预测问题可转化为:在给定 G 和 A 的情况下,求解所有待预测转发行为的最大联合条件概率问题PΘ ( R | G,A) [18]。
2.4 基于混合特征学习
基于混合特征学习的预测方法将转发行为预测视为二元分类问题,分析影响用户转发行为的因素并作为特征,然后选择适当的分类器训练分类模型。常见的特征可概括为独立特征和关系特征。独立特征指核心用户、微博以及微博发布者各自的特征;关系特征指三者之间的相互作用特征,如用户与微博发布者之间的社会关系、用户对微博内容的感兴趣程度以及微博发布者在该信息主题的权威度。如果微博发布者与核心用户有较亲密的社会关系,那么核心用户对于微博发布者的信息更容易产生转发行为,社会关系特征可体现于两者是否是双向好友、两人历史上微博互转的频度等。此类方法的关键在于各种特征的选择和组合。在对比各种因素对用户转发行为的影响时,常用的方法是基于特征递增法(“add-one-feature-in”)或特征排除法(“leave-one-feature- out”)[7]设计分组对比实验以及准实验设计的方法。Xu等人[7]将用户转发行为的影响因素划分为基于社会关系的特性、基于内容的特征、基于发布者的特征,训练多种分类器(决策树、SVM、逻辑回归),并使用特征排除法对比了各类特征的有效性,并说明社会关系特征相对于其他特征更加重要。此外,许多研究工作[19-21]也得出了类似的结论。比如,Luo等人[21]使用基于Pointwise的排序学习方法预测用户的转发行为,通过构建基于二元分类的排序函数对某微博的可能转发者进行top-K排序,发现:如果用户与微博发布者有较多的历史交互、相似的文本兴趣、相似的活跃时间,则该用户更容易产生转发行为。
3 总结
前文以转发行为为例介绍了微博用户转发行为预测的研究工作,4种方法预测的基本假设不同,研究所用数据集也各不相同,因此无法明确说明哪种方法效果好。现将各个方法的优缺点总结如下:
基于用户过往行为的预测方法
假设用户的转发行为反映用户的兴趣,依据用户在预测时间点前的过往行为预测用户未来的行为。这类方法主要使用的模型是协同过滤模型,该模型能够挖掘用户兴趣,利用已知的用户偏好或行为预测未知的用户信息偏好或行为。但是由于微博信息时效性强,新信息不断产生,因此,此类方法面临较严重的新信息冷启动问题。融入用户属性特征、微博文本特征等可缓解冷启动问题。
基于用户文本兴趣的预测方法
假设用户对某信息的转发行为主要源于用户对微博文本内容的兴趣,通过用户的过往微博文本信息对用户进行文本建模,从而预测用户对信息的转发行为。这类方法在用户拥有一定数量的微博文本信息时效果较好;但对于文本内容较少的用户,很难学到其真正感兴趣的内容。
基于用户所受群体影响的预测方法
假设用户转发行为的产生源于所受群体的影响,包括信息发布者的影响和其他信息转发者的影响。这类方法中较多使用因子图模型,除用户之间的相互影响外,因子图模型还可建模其他影响因素,如内容流行度的影响等[18]。
基于混合特征学习的预测方法
将转发行为预测视为二元分类问题,认为用户转发行为是多种因素作用的结果。分析影响用户转发行为的因素并将其表示为特征,然后选择适当的分类器训练分类模型。这种方法最为简单直观,模型解释性弱,依赖于特征的选择与组合。
目前大多数已有研究都是基于上述四类方法,如何将多种因素融合并且使模型兼具解释性将是未来研究中的一个挑战。其次,目前绝大部分的用户传播行为预测都是以静态网络拓扑结构、静态的用户行为为基础的,但是在现实中,微博信息传播速度极快,不断有新用户和新信息产生,无论是用户之间的关系网络,或是用户自身的行为和兴趣,都是随时间动态变化的。如何对用户传播行为进行动态建模是值得深入挖掘的问题。
作者: 哈工大SCIR博士生 李洋
References:
[1] Zhao D, Rosson MB. 2009.How and why people Twitter: The role thatmicro-blogging plays in informal communication at work. In: Teasley S, Havn E,eds. Proc. of the GROUP.
[2] Huberman BA, Romero DM, Wu F. 2009.Social networks that matter: Twitterunder the microscope. First Monday.
[3] Gao S, Ma J, Chen ZM. 2015.Modeling and predicting retweeting dynamics onmicroblogging platforms. In: Cheng XQ, Li H, eds. Proc. of the WSDM .
[4] Zaman TR, Herbrich R, Gael JV, Stern D. Predicting informationspreading in Twitter. In: Proc. of the NIPS Workshop on Computational SocialScience and the Wisdom of Crowds.2010.
[5] Li Y, Chen YH, Liu T. 2016. Survey on predicting information propagationin microblogs. Ruan Jian Xue Bao/Journal of Software (inChinese).
[6] Suh B, Hong LC, Pirolli P, Chi EH. 2010.Want to be retweeted? Large scaleanalytics on factors impacting retweet in Twitter network. In: Proc. of the SocialComputing (SocialCom 2010). Washington: IEEE Computer Society.
[7] Xu Z, Yang Q. 2012. Analyzing user retweet behavior on Twitter. In: Proc.of the ASONAM 2012.
[8] Xu ZH, Zhang Y, Wu Y, Yang Q. 2012.Modeling user posting behavior onsocial media. In: Hersh W, ed. Proc. of the SIGIR 2012.
[9] Boyd D, Golder S, Lotan G. 2010. Tweet, tweet, retweet: Conversationalaspects of retweeting on Twitter. In: Proc. of the 3rd Hawaii Int’l Conf. on SystemSciences (HICSS 2010).
[10] Chen KL, Chen TQ, Zheng GQ, Ou J, Yao EP, Yu Y. Collaborativepersonalized tweet recommendation. In: Hersh W, ed. Proc. of the SIGIR 2012.
[11] Pan Y, Cong F, Chen K, Yu Y. 2013. Diffusion-Aware personalized socialupdate recommendation. In: Yang Q, King I, Li Q, eds. Proc. of the 7th ACM Conf.on Recommender Systems.
[12] Hong LJ, Doumith AS, Davison BD. 2013. Co-Factorization machines: Modelinguser interests and predicting individual decisions in Twitter. In: Leonardi S,Panconesi A, eds. Proc. of the WSDM 2013.
[13] Blei DM, Ng AY, Jordan MI. 2003.Latent dirichlet allocation. Journal of Machine Learning Research.
[14] Liu GN, Fu YJ, Xu T, Xiong H, Chen GQ. 2014. Discovering temporalretweeting patterns for social media marketing campaigns. In: Fan JP, Pei J,eds. Proc. of the ICDM 2014.
[15] Zhang Q, Gong Y, Guo Y, Huang XJ. 2015. Retweet behavior prediction usinghierarchical dirichlet process. In: Proc. of the AAAI 2015.
[16] Zhang J, Liu B, Tang J, Chen T, Li JZ. 2013. Social influence locality formodeling retweeting behaviors. In: Rossi F, ed. Proc. of the IJCAI 2013.
[17] Yang Z. Predictive models in social network analysis [MS. Thesis]. Beijing:Tsinghua University, 2011 (in Chinese with English abstract).
[18] Bian J, Yang Y, Chua TS. 2014. Predicting trending messages and diffusionparticipants in microblogging network. In: Geva S, Trotman A, eds. Proc. of the SIGIR 2014.
[19] Hoang TA, Lim EP. 2013. Retweeting: An act of viral users, susceptibleusers, or viral topics? In: Proc. of the SDM 2013.
[20] Song GH, Li ZT, Tu H. 2012.Forward or ignore: User behavior analysis andprediction on microblogging. In: Proc. of the Advanced Research in AppliedArtificial Intelligence.
[21] Luo ZC, Osborne M, Tang JT, Wang T. 2013. Who will retweet me? Findingretweeters in Twitter. In: Jones G, Sheridan P, eds. Proc. of the SIGIR 2013.
本文来源于哈工大SCIR