今天大部分的网络内容都是为人类阅读而设计的,而不是让计算机程序有意义地操作。计算机可以熟练地解析网页进行布局和日常处理——读取一个头文件,其中有一个链接指向另一个网页——但是一般来说,计算机没有可靠的方法来处理语义:比如这是Hartman和Strauss Physio诊所的主页,这个链接指向Hartman博士的简历。计算机并不理解词语和概念,以及它们之间的逻辑关系。
语义网将为网页上有意义的内容定义结构,创建一个环境,使得从一个页面跳转到另一个页面的软件代理可以轻松地为用户执行复杂的任务。进入诊所网页的这样的代理人不仅知道该网页上有“治疗,药物,身体,疗法”等关键词(目前我们使用将这些词编码的方法),而且理解Hartman博士在星期一,星期三在这家诊所工作和星期五,还知道脚本接受以yyyy-mm-dd格式输入的日期范围并灰返回预约时间。
万维网的基本属性是它的普遍性,超文本链接的强大之处在于“任何东西都可以链接到任何东西”。迄今为止,网络作为人们的文档的媒介发展得非常迅速,但却不能自动处理的数据和信息,语义网旨在弥补这一点。语义网不是一个单独的网络,而是当前网络的扩展,这个扩展的形式中信息具有明确的含义,使计算机和人员能够更好地合作。将语义Web嵌入到现有Web结构中的工作早已经开始。在不久的将来,随着机器能够更好地处理和“理解”目前仅仅只是被显示出来的数据,这些开发将引入重要的新功能。语义网提供了一个通用框架,允许数据在应用程序,企业和社区边界上共享和重复使用。
[描述来源:Berners-Lee, T.; Hendler, J.; Lassila, O. (2001). The Semantic Web. Scientific American. 284(5): 34-43.]
语义网栈(semantic web stack)如下,其描述了语义网的结构:
[图片来源:https://en.wikipedia.org/wiki/Semantic_Web]
XML为文档中的内容结构提供了基本语法,但没有将语义与其中包含的内容的含义联系起来。在目前大多数情况下,XML不是语义Web技术的必要组成部分。
XML Schema是一种用于提供和限制XML文档中包含的元素的结构和内容的语言。
RDF是表达数据模型的简单语言,它涉及对象(“Web资源”)及其关系。基于RDF的模型可以用各种语法表示,例如RDF / XML,N3,Turtle和RDFa。RDF是语义网的基本标准,RDF Schema则扩展了RDF,用于描述基于RDF的资源的属性和类的词汇表,以及用于此类属性和类的通用层次结构的语义。
OWL为描述属性和类添加了更多的词汇,更丰富的属性类型,属性特性(例如对称性)和枚举类。
SPARQL是语义Web数据源的协议和查询语言。
RIF是W3C规则交换格式。它是用于表达计算机可以执行的Web规则的XML语言。
[描述来源:维基百科URL:https://en.wikipedia.org/wiki/Semantic_Web]
发展历史
描述
如我们此前在语义网络(semantic network)中介绍的那样,语义网概念实际上是基于很多已有技术的,这些技术可以追溯到20世纪60年代末期的Allan M. Collins、M. Ross Quillian、Elizabeth F. Loftus等人对语义网络的研究。语义网这个想法是由Tim Berners-Lee于1998年提出的,并于1999年给出了更具体的描述:”日常的贸易机制和我们的日常生活将通过机器之间的沟通和协作操作,人们吹捧的“智能代理”终将实现。”
- Tim Berners-Lee,James Hendler和Ora Lassila在2001年的Scientific American上发表的文章中描述了现有网络向语义网发展的企划路径。但2006年,Nigel Shadbolt,Tim Berners-Lee和Wendy Hall在发表的论文中认为这个简单的想法基本上还没有实现。由于语义网的设计模型是“自顶向下”的,其实现很困难,学者们逐渐将焦点转向数据本身。2006年,Tim Berners-Lee提出链接数据/关联数据(Linked Data)的概念,鼓励大家将数据公开并遵循一定的原则(2006年提出4条原则,2009年精简为3条原则)将其发布在互联网中。Leipzig大学项目组的学者认为语义网的基础首先应该是内容丰富的多元数据语料,这样的语料可以极大推动诸如知识推理、数据的不确定管理技术,以及开发面向语义网的运营系统,并提出了DBpedia项目,是目前已知的第一个大规模开放域链接数据。2012年维基媒体基金会推出Wikidata项目,这是一个大规模社区成员合作知识库,旨在用一种全新的方式管理知识。在中文社区,类似的项目有上海交通大学的zhishi.me、清华大学的XLore、复旦大学的CN-pedia。
主要事件
A | B | C | |
1 | 年份 | 事件 | 相关论文/Reference |
2 | 1998 | Tim Berners-Lee提出语义网的想法 | Berners-Lee, T. (1998).Semantic Web Road map. |
3 | 1999 | Tim Berners-Lee给出了对语义网更具体的描述 | Berners-Lee, T.; Fischetti, M. (1999). Weaving the Web. HarperSanFrancisco |
4 | 2001 | Tim Berners-LeeHendler和Lassila在发表的文章中描述了现有网络向语义网发展的企划路径 | Berners-Lee, T.; Hendler, J.; Lassila, O. (2001). The Semantic Web. Scientific American. 284(5): 34-43. |
5 | 2006 | Nigel Shadbolt,Tim Berners-Lee和Wendy Hall在发表的论文中认为这个简单的想法基本上还没有实现 | Shadbolt, N.; Berners-Lee T. and Hall, W. (2006). The Semantic Web Revisited.IEEE Intelligent Systems, 21(3): 96-101. |
6 | 2006-2009 | Tim Berners-Lee提出链接数据(Linked Data)的概念,鼓励大家将数据公开并遵循一定的原则(2006年提出4条原则,2009年精简为3条原则)将其发布在互联网中 | Berners-Lee, T. (2006). Linked data-designissues[J].//Berners-Lee, T.(2009). The next web[J]. |
7 | 2007 | Leipzig大学项目组的学者提出了DBpedia项目 | Auer, S, Bizer, C, Kobilarov, G, et al. (2007). Dbpedia: A nucleus for a web of open data. The semantic web. pp 722-735. |
8 | 2012 | 维基媒体基金会推出Wikidata项目 | Vrandečić, D. (2012). Wikidata: a new platformfor collaborative data collection. Proceedings of the 21st International Conference on World Wide Web. pp 1063-1064. |
发展分析
瓶颈
语义网的一些挑战包括广泛性,模糊性,不确定性,不一致性和欺骗性。
广泛性(Vastness):万维网包含数十亿页,现有技术尚未能消除所有语义上重复的术语。
模糊性(Vagueness):即用户查询的模糊性,目前仍没有如何提供更好的搜索结果的确定性解决方案。
不确定性(Uncertainty):这些指精确概念,但却具有不确定的值。例如,患者可能会出现一系列症状,这些症状对应于各种不同诊断,每种诊断确诊的概率又不同。
不一致性(Inconsistency):这些都是在大型本体开发过程中以及来自不同来源的本体组合时不可避免地会出现的逻辑矛盾。演绎推理在面对不一致时会发生灾难性的失败,因为“任何事情都是从矛盾中产生的”。不可行的推理和协调推理是可以用来处理不一致的两种技术。
欺骗(Deceit):信息的制作者可能会包含故意误导消费者的信息。
[描述来源:维基百科URL:https://en.wikipedia.org/wiki/Semantic_Web]
未来发展方向
目前的研究热点大部分仍然在知识图谱、链接数据/关联数据的方向。
Contributor: Yuanyuan Li