这是一种网络理论中用于评估节点之间关系(连接)的数据分析技术,属于网络计量学(Webometrics)范畴。网络中的节点可以包括多种类型的对象及其组合,如组织、人员和事务。链接分析已被用于调查犯罪活动(欺诈侦查、反恐和情报)、计算机安全分析、搜索引擎优化、市场研究、医学研究和艺术等领域。
[描述来源:Wikipedia; URL:https://en.wikipedia.org/wiki/Link_analysis]
链接分析中最基础且重要的两类算法是PageRank算法与HITS算法。除此之外,其他常见算法还包括SALSA、PHITS、贝叶斯和Reputation等几类。而上述每一类算法都各自衍生出一些变种算法,从而形成了链接分析的算法体系。
一个典型的链接分析应用是搜索引擎结果排序。搜索引擎通过综合评估网页与搜索关键词的关联程度以及网页的质量,给出搜索排序结果。搜索引擎利用链接分析技术计算指向待评估网页的链接数量加权和,从而评估该网页的质量。而各链接的权值则反映了链接自身的质量和权威性。
发展历史
1996年,G.Mckiernan首先提出了”Sitation””这一术语用于研究网页之间的关系,这被视作链接分析的起源。而在1998年,链接分析技术中基础而重要的两种算法PageRank算法和HITS算法相继提出,分别代表了随机游走和子集传播两种不同的链接分析模型。2000年,R.Lempel和S.Moran结合PageRank与HITS算法的思想提出了SALSA算法。同年,K.Bharat在Pagerank思想的基础上,加入了对于外链与主题相关程度的考量,提出了Hilltop算法。2000年之后,M.Thelwall将链接分析广泛应用于大学网站评价、资源发现和竞争情报分析,成为了该领域根目录级别的学者之一。他在2004年提出了研究链接分析的三大方法:情报学链接分析方法(ISLAA)、计算机科学链接分析方法(CSLAA)和社会科学链接分析方法(SSLAA)。随后几年,链接分析研究进入更加聚焦与深入的阶段,基于网页内容的链接分析、基于用户行为的链接分析、基于Web网页群的链接分析以及链接分析与复杂网络等成为主要研究方向。2011年以来,随着各搜索引擎逐步停止提供收集链接数服务,链接数据源日益匮乏,这也导致相关研究者开始寻找新的方法替代链接分析,网络计量学进入“后链接分析时代”。
主要事件
年份 | 事件 | 相关论文 |
1996 | G.Mckiernan提出Sitation | Mckiernan, G. (1996). Automated categorisation of Web resources: A profile of selected projects, research, products, and services. New Review of Information Networking, 2(1), 15-40. |
1998 | S.Brin和L.Page提出PageRank算法 | Page, L. (1998). The pagerank citation ranking : bringing order to the web. Stanford Digital Libraries Working Paper, 9(1), 1-14. |
1998 | J.Kleinberg提出HITS算法 | Kleinberg, J. M. (1998). Authoritative sources in a hyperlinked environment. Journal of the Acm, 46(5), 604-632. |
2000 | R.Lempel和S.Moran提出SALSA算法 | Lempel, R., & Moran, S. (2000). The stochastic approach for link-structure analysis (salsa) and the tkc effect 1. Computer Networks, 33(1), 387-401. |
2000 | k.Bharat提出Hilltop算法 | Bharat, K., & Mihaila, G. (2000). Hilltop: A Search Engine based on Expert Documents. of the, International WWW Conference. |
2004 | M.Thelwall提出三大链接分析研究方法 | Thelwall, M. (2004). Link analysis: an information science approach. págs. 491-492. |
2011 | 雅虎终止自动收集链接数服务 | |
2012 | 雅虎终止手工收集链接数服务 |
发展分析
瓶颈
- 缺乏对链接动机的深入理论研究
- 缺乏对链接的有效分类
- 链接信息和数据的不完全性、动态性和不确定性(歧义性)导致链接分析困难
- 无效链接和恶意作弊行为加大了链接分析难度
- 链接数据源日益匮乏,使得链接分析的传统方法发展受限
未来发展方向
链接分析自提出以来,在许多领域得到了广泛应用,产生了巨大的效应。在未来,一方面链接分析的研究将像任何一个年轻学科一样走向细分和深入,去探寻现象背后更本质的东西,并逐步丰富和完善理论体系;另一方面,受链接数据源匮乏的限制,链接分析的研究者将会积极探索可替代的表征形式和分析方法,从而形成含义更为广泛的新学科体系。总之,链接分析的形式和方法可能会发生变化,但该领域的研究仍然具有深远的意义和广阔的前景。毕竟,对节点及节点之间关系的研究是人类社会乃至整个自然界永恒的课题。
Contributor: Han Hao