本文是爱思唯尔技术研究负责人 Helena Deus 参加 2018 年国际语义网会议(ISWC)的见闻,总结了会议亮点,介绍了语义网的现状、知识图谱和深度学习的关系等主题。
上周我参加了在加利福尼亚州蒙特雷举办的国际语义网络会议(ISWC),并在 Ada Lovelace 纪念日当天就爱思唯尔(Elsevier)在衡量和解决研究领域中的性别差异方面所做的工作发表演讲(详见:https://www.elsevier.com/research-intelligence/resource-library/gender-report)。会议的其他部分就像是一场回到过去的旅程……当然是以不错的方式回去的 :-)
借此机会我重新审视了自己从 2008 年开始的语义网研究。
(如果您对语义网已经有所了解想直接看机器学习部分的内容,您可以直接跳到「深度学习和知识图谱」这一章)
语义网的愿景活跃且良好,广泛应用于行业
语义网的愿景是「对计算机有意义」的数据网络(正如 Tim Berners Lee、James Hendler 和 Ora Lassila 在《科学美国人》发表的文章《The Semantic Web》所介绍的那样)。ISWC 是共享这一愿景的研究人员和工程师组成的社区;他们通过发表研究论文的形式作出贡献,目的是让这一愿景成为现实。具体而言,语义网研究人员的方法是创建知识图谱,这种数据结构的实体由 URL 进行唯一标识,并使用 RDF 语言通过三元组链接至其他实体。研究人员用知识图谱推断知识或新的三元组(利用规则语言),或将知识图谱作为训练集找到文本(或其他媒介)中有意义的关系(TimBL 写过一篇相关的有趣文章:https://www.w3.org/DesignIssues/)。
尽管有人宣称语义网已死或奄奄一息,但我却持相反意见:语义网很有活力且广泛应用于行业,这一事实在 ISWC 会议上也多次得到印证——多篇论文是关于工业和医疗领域的,它们很好地例证了语义网技术正用于解决企业问题。同样重要的还有企业级知识图谱小组(Panel: Enterprise-Scale Knowledge Graphs),强调了 Microsoft、Facebook、Ebay(用于改进产品搜索功能)、Google(改进搜索)以及 IBM(让用户建立自己的知识图谱)在知识图谱上的投入,这些企业都在自己的产品中应用了知识图谱技术,为基于关键词的搜索提供更好的答案,从而改进用户体验。
语义网应用于行业和医疗领域的例子:
Babylon 利用知识图谱让每个人都能了解药物和医疗健康方面的知识。他们用推断的方法将症状与正确的疾病信息相匹配,并在移动 app 中的聊天机器人上使用。下图是他们论文(https://link.springer.com/content/pdf/10.1007/978-3-030-00668-6_18.pdf)中的自动交互图:
Franz Inc 和英特尔合作的 Montefiore Health System 用知识图谱识别和标记有风险的患者,有助于医生制订合适的治疗计划。下图是他们论文(http://ceur-ws.org/Vol-2180/paper-78.pdf)中的知识图谱图示:
爱思唯尔提出了一个数据网络,允许内部开发人员利用关联数据(Linked Data)原则从不同的系统获取医疗数据。他们的论文(http://ceur-ws.org/Vol-2180/paper-85.pdf)还讨论了该过程中遇到的挑战和获得的经验,包括如何将关联数据方法集成到开发周期中。Paul Groth 的展示幻灯片如下所示:
全部幻灯片见原文。
NuMedii 利用知识图谱为那些无法治愈的疾病寻找有效药物,即通过为领域专家提供可视化工具找到有意义的关系和队列组织(cohort building)。他们的例子介绍了针对无法治愈的纤维化疾病(特发性肺纤维化,IPF)的药物研发。NuMedii 挖掘了 PubMed 中关于纤维化疾病的 700K 摘要,通过发现适用于其他纤维化疾病的获批药物的相关验证靶标(validated target),来确定 IPF 疾病的可能药物。下面是他们论文(http://ceur-ws.org/Vol-2180/paper-81.pdf)中的图。
FINRA 使用知识图谱(和文本挖掘)捕获到数百万文档的元数据,并利用元数据链接而不是文本搜索的相关性排名帮助用户找到相互关联的文档。知识图谱有助于他们提高监管分析(regulatory analysis)的效能。下面是他们论文(http://ceur-ws.org/Vol-2180/paper-82.pdf)中的图。
深度学习和知识图谱
许多工程师在将深度学习应用于知识图谱中看到的价值是:在创建或验证三元组时,只使用图中其他三元组而无需其他。经典的知识表征技术允许知识工程师创建推理器(reasoner)可解释的规则,以推断新的或丢失的三元组。例如,「类型为人的实体一定有出生日期的属性」这样的规则会给每一个类型为人的实例创建出生日期的三元组。这些规则一般通过本体(ontology)来表达,本体允许属性从上级到下级传播(详情请参阅:https://en.wikipedia.org/wiki/Knowledge_representation_and_reasoning)。确定正确的规则集是一个耗时的手动过程,但这个过程可以用机器学习来自动完成。
但找到正确的图表征将三元组提供给机器学习算法仍然是一个开放的研究领域。ISWC 的「深度学习」部分提出了以下方法:
Vecsigrafo(http://www.semantic-web-journal.net/content/vecsigrafo-corpus-based-word-concept-embeddings-bridging-statisticsymbolic-representational):这种方法依赖于联合词-概念嵌入(joint word-concept embedding)。他们用依赖于共生矩阵的 swivel 生成嵌入。不同的地方在于,swivel 使用单词作为矩阵的行/列,而他们使用的是从知识图谱收集到的更高级的术语(lexical term)。作者评估了这种方法在英语-西班牙语互译上的表现(就我所知,他们只翻译单词,而没有翻译句子)。他们最好的神经网络能够在 78% 的情况下将正确的词条译文列入最接近的前 5 个译文之内。在 90% 的情况下他们发现前 5 个建议翻译结果的语义确实很接近。
曼海姆大学的研究人员利用基于规则(从统计规律中学习规则)和基于嵌入的方法(将知识图谱嵌入更低维/潜在空间)比较了知识图谱补全方法(https://link.springer.com/content/pdf/10.1007/978-3-030-00671-6_1.pdf)。他们在评估时使用了三个数据集:其中一个来自 wordnet,另外两个来自 freebase。测试集中的每一个三元组都有两个补全任务:给定关系和宾语,补全主语 (?, p, o);给定关系和主语,补全宾语 (s,p,?)。他们评估了 RuleN 和 AMIE 这两种基于规则的方法,和 TransE、RESCAL 和 HolE 这几种基于嵌入的方法。总体而言,作者发现基于规则的方法更加精确。根据这些结果,他们还建立了一个优于其他方法的集成方法。
苏黎世大学的研究人员使用多任务方法将知识图谱和文档嵌入结合起来,以改善预测和分析任务,他们将该研究称为 KADE(https://link.springer.com/content/pdf/10.1007/978-3-030-00671-6_2.pdf)。在 Kade 中,作者为文档和三元组创建一个共同的嵌入空间,目的是在不丢失原始嵌入特征的情况下,实现可以对接不同模型(图节点嵌入和文档嵌入)的嵌入策略。这项工作有着极大的潜力,它可以用从文档中提取出的更多三元组补全知识图谱,因为它在同一个向量空间中既表示三元组也表示文档。
知识图谱、语义科学和可重复性研究
值得一提的是有一个围绕语义科学的研讨会(SemSci)。这个主题就很有趣了,因为科学研究是产生新知识的引擎,但知识生成的输出仍是为了人类需求而优化的。SemSci 研讨会的愿景是向知识图谱提供此类科学知识。
研讨会由 Paul Groth 发起,他通过实验方法的自动化地提高了实验的可重复性。在他看来,应该由机器和机械臂自动从来源收集知识以进行实验。Paul 的研究表明实验室中使用的很多方法都可以通过调用 API 实现自动化。Paul 的幻灯片地址:https://www.slideshare.net/pgroth/the-challenge-of-deeper-knowledge-graphs-for-science。Yolanda Gil 做了相关的演讲,介绍了她在利用 AI 实现自动发现方面的研究(幻灯片见下图)。Yolanda 认为 AI 可以提供系统化、正确且无偏差的科学知识生成方法,更别说是更好地报告科学实验的结果了。在 Yolanda 展示的生态系统中,AI 可以提出假设,并寻找证明这种假设的方式——而这一切都是自动的。
其他关于这个主题的有趣讨论还有:
WhyIs:由 Jim McCusker 提出,允许用户与认知智能体交互,该智能体靠知识、目标和数据(纳米出版物)提供有用的答案和解释。Jim 将他的系统描述为一个用于知识管理、交互和推断的框架。
项目演示:https://redrugsdev.tw.rpi.edu/
论文:https://semsci.github.io/SemSci2018/papers/6/SemSci_2018_paper_6.pdf
证据提取(Evidence Extraction):Gully Burns 围绕从已经公开的研究中提取支持分子相互作用的数据提出了一项很酷的研究工作。这项工作用到在 INTACT 数据库中提到过的 2K 开放权限的论文,从 PDF 文件中提取图像(通过查看低密度单词区域实现)并用了「YOLO」方法进行子图识别。根据不同等级的准确率将子图分为子类(准确率为 97% 的是组织学图像,准确率为 40% 的是图表)。
社会语义网与隐私
Tim Berners Lee 在今年的 ISWC 上告诉我们 Solid 已经成为「语义网去中心化」(Decentralizing the Semantic Web)研讨会的一部分内容,该会议是由 Ruben Verborgh 和 Tobias Kuhn 共同组织的。这场会议的目标是创建可以利用知识图谱为用户创造价值的智能网络客户端和去中心化应用(他们接收了 7 篇论文,并将这些论文列在研讨计划中)。该会议的第二部分就有关于 Solid;Solid 背后的理念是要在网络上支持社交活动(很像 Facebook 和 LinkedIn 支持的那些活动),在允许人们与他人交流的同时还拥有自己的数据,使用包括数据形状验证在内的语义网原理,使他们的数据可以和其他用户的个人信息和帖子共存,还可以相互链接。社交 app 必须要获得用户数据的使用许可,这就意味着窃取和贩卖用户社交数据来盈利的掠夺性应用不会像现在这么容易开发。现在正在建立的库是 Solid 生态系统的一部分,它允许开发者通过 Javascript 使用 Solid(用 LDFlex 或 React)。
更多信息请参阅:http://solid.inrupt.com/
此外,就隐私和许可这一话题,Jen Goldbeck 发表了关于提高隐私意识和隐私重要性的讲话。这项演讲的主旨是将「隐私」视为「给予许可」的行为。例如,facebook 需要在特定目的下使用用户数据时,要从他们的用户那里获得许可。语义网技术允许聚合用户的大型的数据图——当然是在获得许可的情况下。考虑许可而不是「隐私」有助于创新,因为许可将讨论的焦点更多地放在了具体行为、个人数据点以及实用主义上。
查询与联合
产业界使用语义网技术(用于主数据管理、推理或其他应用)面对的挑战似乎一直都是查询速度的问题。语义网的查询语言是 SPARQL,而数据一般存储在三元组存储中。对于在关系数据库和文档数据库中可以良好运行的查询而言,可能还有一些比 SPARQL 更好的选择。当需要将查询联合到其他系统或者数据要回答的问题存储在多个位置(商业防火墙内部或外部)时,基于 SPARQL 的系统就很合适了。该领域取得的一些进展包括:
Saleem 等人在《LargeRDFBench: A billion triples benchmark for SPARQL endpoint federation》中提出用于联合 SPARQL 查询的新基准,它将数据指标、查询联合指标(包括其他系统不支持的复杂查询)以及性能指标考虑在内。有关指标的相关细节请参阅:https://twitter.com/hdeus/status/1050810577700835329。该作者发现一些联合查询系统返回的查询结果并不完整,但它们并没有让用户知道。用文中所述基准比较的联合查询有:FedX、Splendid、Anapsid 以及 HibisCus。
Janke 等人在《IMPACT ANALYSIS OF DATA PLACEMENT STRATEGIES ON QUERY EFFORTS IN DISTRIBUTED RDF STORES》中提出了一种在多个计算节点上分配大型 RDF 图谱的最佳方法。令人惊讶的是,作者发现对快速的查询处理而言,在所有计算节点上平衡查询工作量比网络流量更重要。这项工作的细节请参阅:https://twitter.com/hdeus/status/1050818304850321411。
原文链接:https://www.linkedin.com/pulse/knowledge-graphs-machine-learning-iswc-2018-trip-report-helena-deus/?from=groupmessage&isappinstalled=0