概率潜在语义分析是一种用于分析双模式(two-mode)和共现数据( co-occurrence data)的统计技术,它在信息检索和过滤,自然语言处理,机器学习文本以及相关领域都有应用。与源自线性代数并通过奇异值分解缩小发生表(co-occurrence table)的标准潜在语义分析(standard Latent Semantic Analysis)相比,pLSA基于从潜在类模型(latent class model)推导出的混合分解(mixture decomposition)。
从文本和自然语言中学习是人工智能和机器学习的重大挑战之一。这个领域的任何实质性进展都会对从信息检索,信息过滤和智能接口到语音识别,自然语言处理和机器翻译的许多应用产生强大的影响。其中一个基本问题是以数据驱动的方式学习单词的含义和用法,即从某些给定的文本语料库中学习,并可能没有进一步的语言学先验知识。
机器学习系统必须解决的主要挑战是由于文本或话语中“实际上已经说过/写过的内容”的词汇层面与“潜在内容”的语义层面之间的区别带来的,这样造成的问题有:(i)多义词,即一个词在不同的语境中可能有多种意义和多种用法,以及(ii)同义词和语义相关词,即不同词可能有相似之处,即他们可能至少在某些情况下表示相同的概念,或者——在较弱的意义上——指的是同一主题。这也是pLSA这些方法被提出的原因,它的主要思想在于类似文件中会出现类似含义的词。
考虑到词语和文档的共现(w,d)形式的观察结果,PLSA将每个共现的概率模型化为条件独立的多项分布的混合:
其中 'c' 代表单词所属的主题,而主题的数量是需要提前确定的超参数。上式中等式右边第一个公式是对称公式,其中w和d都是以类似的方式通过条件概率P(d|c)和P(w|c)从潜在类c中生成的。而第二个公式是不对称公式,对于每个文档d,根据P(c | d)一个潜类会被分配给文档,然后根据 P(w | c)一个单词从这个潜类中被生成。 虽然我们在这里将该公式限定在文本处理领域内,但实际上任何几个离散变量的共同出现都可以用这种方式建模。上式中涉及到的参数可以通过EM算法进行估计。
[描述来源:Hofmann, T. (1999). Probabilistic Latent Semantic Analysis. Uncertainity in Arti cial Intelligence. ]
[描述来源:维基百科 URL: https://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis ]
发展历史
Thomas Hofmann于1999年提出了pLSA,并在文中描述了pLSA与LSA(潜在语义分析)的区别,即前文提到的LSA主要基于奇异值分解(SVD)而pLSA则依赖混合分解。他随后进行了一系列实证研究,并讨论了pLSA在自动文档索引中的应用。他的实证结果表明pLSA相对于LSA的表现有明显进步。
2003年Andrew Y. Ng等人在论文中提出用于pLSA的aspect model具有严重的过度拟合问题,他们提出了隐狄利克雷分布(LDA),这可以看作是结合了贝叶斯思想的pLSA。2005年Li Feifei等人将LDA应用于计算机视觉领域,他们的研究显示LDA在13类复杂场景下的大量测试中取得了令人满意的分类表现。
主要事件
年份 | 事件 | 相关论文/Reference |
1999 | Thomas Hofmann提出了pLSA | Hofmann, T. (1999).Probabilistic Latent Semantic Analysis.Uncertainity in Arti cial Intelligence. |
2001 | Thomas Hofmann讨论了pLSA在自动文档索引中的应用 | Hofmann, T. (2001).Unsupervised Learning by Probabilistic Latent Semantic Analysis. Machine Learning. 42(1-2): 177-196. |
2003 | Andrew Y. Ng等人在论文中提出用于pLSA的aspect model具有严重的过度拟合问题,他们提出了隐狄利克雷分布(LDA) | Blei, D. M.; Ng, A. Y.; Jordan, M. I. (2003).Latent Dirichlet Allocation. JMLR. pp 993-1022. |
2005 | Feifei Li等人将LDA应用于计算机视觉领域 | Fei-Fei, L. and Perona, P. (2005). A Bayesian hierarchical model for learning natural scene categories.2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2: 524-531. |
发展分析
瓶颈
pLSA 模型pLSA 模型在文档层面不提供任何概率模型,因而很难泛化到新的没见过的文档,另一个缺点是P(c | d)的参数数随着文档数量线性增长,这会导致过拟合问题。
未来发展方向
作为主题模型的一种,pLSA在推荐系统、自然语言处理相关方向都有广泛应用。
Contributor:Yuanyuan Li