Latent Dirichlet Allocation(文档主题生成模型简称LDA),又名潜在狄利克雷分布,是非监督机器学习技术,用于识别文档集中潜在的主题词信息。它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。它也可以被称为一个三层贝叶斯概率模型,其中包含词,主题和文档。它的中心思想是一篇文章的每个词都是通过一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语。它的特点是文档到主题服从多项式分布,主题到词服从多项式分布。
LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
另外,正如Beta分布是二项式分布的共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:
- 从狄利克雷分布中取样生成文档i的主题分布
- 从主题的多项式分布中取样生成文档i第j个词的主题
- 从狄利克雷分布中取样生成主题的词语分布
- 从词语的多项式分布中采样最终生成词语
因此整个模型中所有可见变量以及隐藏变量的联合分布是
p(w_i,z_i,\theta_i,\Phi \mid\alpha,\beta) = \coprod_{N}^{j=1}p(\theta_i\mid\alpha)p(z_{i,j}\mid\theta_i)p(\Phi\mid\beta)p(w_{i,j}\mid\theta_{z_{i,j}})
p(w_i\mid\alpha,\beta)=\int_{\theta_i}\int_{\Phi}\sum_{z_i}p(w_i,z_i,\theta_i,\Phi\mid\alpha,\beta)
根据的最大似然估计,最终可以通过吉布斯采样等方法估计出模型中的参数。
以上资料来自维基百科:https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
发展历史
Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。2003年,David M. Blei,Andrew Y. Ng与Michael I. Jordan提出文档主题生成模型(LDA)。隐含狄利克雷分配可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主题模型一般是在LDA基础上改进的。例如HLDA(Hierarchical Latent Dirichlet Allocation)模型,它试图建立主题之间的关系。
Labeled LDA (Labeled Latent Dirichlet Allocation) 能够训练出带标签的主题,Labeled LDA与LDA最大的不同是: LDA是在所有topics上为某一个词进行选择某个topic,而labeled LDA则是只从文档相关的label对应的topic中去选择,其余和LDA都是一样的。
LLDA (hierarchical Labeled Latent Dirichlet Allocation)模型的好处就是在Labeled Latent Dirichlet Allocation模型的基础上扩展到层次结构,其思想也是很简单的,认为一个文档只是由这个文档对应的层次label所产生。
LDA的应用十分广泛,通常会被应用在推荐系统,邮件分类,关键词提取等等。
主要事件
年份 | 事件 | 相关论文/Reference |
1998 | Papadimitriou、Raghavan、Tamaki和Vempala与1998年提出了潜在语义索引的概念 | Papadimitriou, C. H., Raghavan, P., Tamaki, H., & Vempala, S. (2000). Latent semantic indexing: A probabilistic analysis. Journal of Computer and System Sciences, 61(2), 217-235. |
1999 | Thomas Hofmann 在潜在语义索引的基础上提出了概率性潜在语义索引 | Hofmann, T. (2017, August). Probabilistic latent semantic indexing. In ACM SIGIR Forum (Vol. 51, No. 2, pp. 211-218). ACM. |
2003 | Blei, David M.、吴恩达和Jordan, Michael I提出LDA | Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022. |
2004 | David M. Blei, Thomas L. Griffiths , Michael I. Jordan,Joshua B. Tenenbaum 提出HLDA,试图建立主题之间的关系。 | Griffiths, T. L., Jordan, M. I., Tenenbaum, J. B., & Blei, D. M. (2004). Hierarchical topic models and the nested chinese restaurant process. In Advances in neural information processing systems (pp. 17-24). |
2009 | Daniel Ramage, David Hall, Ramesh Nallapati and Christopher D. Manning提出Labeled LDA,它能狗训练出带标签的主题。 | Ramage, D., Hall, D., Nallapati, R., & Manning, C. D. (2009, August). Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1-Volume 1 (pp. 248-256). Association for Computational Linguistics. |
2011 | Adler Perotte Nicholas Bartlett Noemie Elhadad Frank Wood提出LLDA | Perotte, A. J., Wood, F., Elhadad, N., & Bartlett, N. (2011). Hierarchically supervised latent Dirichlet allocation. In Advances in Neural Information Processing Systems (pp. 2609-2617). |
发展分析
瓶颈
对于LDA这种潜在的一元文本模型,最主要的缺点是它不考虑在文本中一系列单词的位置,例如“Man, I love this can” and “I can love this man” 在建模的时候可能会表达同样的意思。而且,对于长文本来说,匹配主题会变得困难。另外一个需要解决的问题是LDA中主题的组成,主题会出现重贴的现象。这就导致了产生的主题们不是独立的。
未来发展方向
文本自动生成技术可以应用于智能问答与对话、机器翻译等系统,实现更加智能和自然的人机交互;我们也可以通过文本自动生成系统替代编辑实现新闻的自动撰写与发布,最终将有可能颠覆新闻出版行业。
Contributor: Zhixiang Chi