潜在语义分析(LSA)是自然语言处理中的一种技术,特别是在分布式语义学中。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。值接近1代表相似的单词,而值接近0代表非常不相似的单词。这项技术在信息检索中,被称作潜在语义索引(LSI)。
描述来源
1. Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. 38: 188–230.
2.维基百科
描述来源URL
1. http://onlinelibrary.wiley.com/doi/10.1002/aris.1440380105/abstract
2. https://en.wikipedia.org/wiki/Latent_semantic_analysis#cite_note-1
例
网购时在搜索栏搜索关键词,系统不光会给出关键词的商品,与关键词相关的商品同样会被推荐。这个过程就用到了潜在语义分析。如在搜索栏输入”机器学习”+”Python”,搜索到的除了”用python实现机器学习”的书籍以外,还可能会有”用python实现神经网络”或者”R语言机器学习”相关书籍。这是因为在潜在语义空间中,”python”和”R”,”机器学习”和”神经网络”有着很高的向量关联性。这种搜索方式相比较传统向量空间模型(Vector Space Model),近义词同类词之间的相关性得到了充分的考虑。
发展历史
描述
1988年,Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum和Lynn Streeter提出了一项使用潜在语义结构的信息检索技术,1990年,潜在语义检索的概念被Susan Dumais等人明确提出。2000年,潜在语义分析被Jerome Bellegarda提出使用在自然语言处理中。
主要事件
年份 | 事件 | 相关论文/Reference |
1988 | 以Susan Dumais为首的研究人员们开发了一项使用潜在语义结构的信息检索技术。 | US Patent 4,839,853(已过期) |
1990 | 潜在语义分析被Susan Dumais等人在论文中诠释 | Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American society for information science, 41(6), 391. |
2000 | 潜在语义分析被提出使用在自然语言处理中 | Bellegarda, J. R. (2000). Exploiting latent semantic information in statistical language modeling. Proceedings of the IEEE, 88(8), 1279-1296. |
发展分析
瓶颈
一词多义的问题目前仍然没有被解决,即使一个单词有多种意义,它们在空间中仍被表示为同一个点。
未来发展方向
通过解决一词多义问题,信息检索的精确度和结果的合理性将进一步提高。