Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率

近日,在 2024 Inclusion・外滩大会 “超越平面思维,图计算让 AI 洞悉复杂世界” 见解论坛上,蚂蚁集团知识图谱负责人梁磊分享了 “构建知识增强的专业智能体” 相关工作,并带来了知识图谱与大模型结合最新研发成果 —— 知识增强大模型服务框架 KAG

梁磊介绍,专业领域增强大模型服务框架 KAG 通过图谱逻辑符号引导决策和检索,显著提升了垂直领域决策的精准性和逻辑严谨性;通过信息检索可补全知识图谱的稀疏性和知识覆盖的不足,同时充分利用大语言模型的理解和生成能力降低领域知识图谱的构造门槛。KAG 框架在垂直领域的适用性得到了有效验证。比如,支付宝最新推出的 AI 原生 App “支小宝” 采用这套框架,在政务问答场景的准确率提升到了 91%,医疗问答垂直的指标解读准确率可达 90% 以上。梁磊还透露,KAG 框架会进一步向社区开放,并在开源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支持,也欢迎社区共建。

以下是梁磊在外滩大会上的演讲内容摘要,机器之心做了不改变原意的整理。

1、可信是大语言模型真正落地应用的前提

语言模型有着很好的理解和生成能力,在垂直领域的应用有巨大的机会,但同时也存在着非常大的挑战。比如在垂直领域跟专家经验、一些具体业务结合的时候,依然存在着不懂领域知识、做不了复杂决策、不可靠等问题。

图片

首先,大语言模型本身不具备比较严谨的思考能力。在一些测试中,我们让大语言模型做复杂问题的拆解,问两部电影之间的共同主演是谁,结果显示总体上回复的准确性和一致性相对较低,甚至还有一些拆解错误。这种情况下,大语言模型很难严格遵从人类的指令。此外,大语言模型还存在事实性不足的问题。今年以来行业尝试把 RAG、搜索引擎之类的技术引入到大语言模型,来补充事实性不足的问题,以及 GraphRAG,用图的方式去重新组织它的检索。但问题是,即便引入了一些外部知识库,把一些垂直领域的知识库和事实文档给到语言模型,模型也不见得能够完全生成一个准确的答案。

除此以外,大模型在外部知识库召回的时候,也依然会存在召回不准的问题。举个基于向量计算的 RAG 的例子。比如问 “怎么查找我的养老金”,常见的有两种做法,一种是直接基于向量计算去召回文档,但是往往和业务专家定义的知识不相关。但在垂直领域,有很多知识在字面上不相似,但却是很相关的。比如政策明确规定了五险一金的范围,大模型不能对这些内容做胡乱生成,这就必须有一些预定义的领域知识和预定义的知识结构,来约束大模型的行为,甚至给它提供一个更有效的知识注入,而这些都是模型在文本上不相似,但却是强相关的。在这种情况下,今年讨论引入知识图谱技术的也越来越多。通过知识图谱的语义相关性来提升模型内容的相关性,以此可以做更好的语义计算和语义的召回。
    
大模型幻觉也是阻碍应用的关键挑战之一。那么,引入了 RAG、知识库之后,大模型就能解决幻觉问题了吗?其实不然,而且有些幻觉问题不仔细观察便难以察觉。举个例子,比如原文提到功能饮料中的维生素、矿物质等,对运动后补充身体营养、消除疲劳具有一定作用,而大模型重新生成以后,可能会改写成对于增加疲劳有一定作用。这种其实就会给一个错误的引导,但这种错误的引导,尤其是大模型生成的文案可能是几百字,甚至上千字的,这时候就很难从里面观察到这类细节问题。通过测评发现,大语言模型即便是加入 RAG 以后,依然有大概 30% 到 40% 的幻觉率。

在真实业务决策场景,挑战就更多了。以金融场景为例,无论是研报生成,还是医疗问诊等等,业务上都有比较严格的问题规划、信息获取、决策建议,甚至生成和反馈的过程。也就是说,因为大语言模型还是要为人类服务,应用在一个个垂直业务场景,每一类都需要准确的决策过程,如果这个决策过程不能得到很好的控制的话,就很难真正意义上用在垂直领域。在专业性的知识服务场景,大语言模型服务的首要前提是知识精准。这就包括知识的边界是完备的,知识的结构及语义清晰、逻辑严谨。另外,在垂直领域落地,也一定要对时间、数字和逻辑敏感,无论让它做多跳推理,还是逻辑规则数字计算,而这些恰好是大语言模型所不擅长的,包括前一段时间热议的 9.9 和 9.12 比大小的例子。

基于此,我们认为在垂直领域落地的时候,大语言模型一定确保专业和可信。可信是大语言模型真正意义上落地的前提。如果不能保证可信,我们可能不会迎来真正意义上的 AGI 的变革。这也是蚂蚁为什么要做知识增强的重要原因。

2、KAG:专业领域知识增强大模型服务框架

应对大模型在真实应用场景遇到的挑战,蚂蚁研发了基于知识增强在垂直领域的可控生成框架 KAG。

图片

KAG 可控生成框架是基于开源系统 OpenSPG 升级,并且结合了蚂蚁自研的图数据库 TuGraph-DB 的能力。TuGraph-DB 作为 KAG 中知识图谱 SPG 的底层图引擎,为 KAG 提供了高效的知识存储与检索能力。KAG 将抽取的知识存储于 SPG 中,由 TuGraph-DB 提供图存储;在检索流程中,SPG 通过 TuGraph-DB 的 Cypher 接口检索与用户提问相关的知识信息,并将结果反馈给大模型生成回答。

KAG 框架针对大语言模型和图谱的结合做了五方面的增强:分别是知识表示的增强、图结构与文本互索引、符号引导的拆解和推理、基于概念的知识对齐、KAG Model。具体包括以下关键能力:

1) KAG: LLMs 友好的知识表示

今年,我们对语义表示进行了升级,旨在进一步发展 OpenSPG 项目,推动知识图谱从静态二元结构向多元动态结构持续升级。通过原始文本增强深度上下文感知,我们实现了更丰富的可解释文本的知识关联,对大语言模型也更友好,同时,参考 DIKW 层次范式在同一实体空间中支持 Schema 约束、无模式建模及文本结构的分层表示。

图片

同时,我们探讨了 GraphRAG 范式的两种主要实现:微软的 GraphRAG 和 HippoRAG。尽管微软的 GraphRAG 在摘要生成类任务上有不错表现,但在事实问答准确率上表现不佳。而 HippoRAG 通过图结构构建倒排索引,显著提升了文档召回的相关性和事实问答的准确性。我们的目标是在专业领域内实现准确的事实性回答和报告生成,融合不同层级知识创建从严格到宽松的决策范式。

2) 互索引:结构化知识与文本数据互索引结构

我们将原有的 term-based 倒排索引升级为 graph-based 倒排索引,通过开放信息抽取获取原始文档中的关键元素和描述性信息,进行有效的语义切分,最终形成一个包含业务实体、通用概念知识和文本块的图结构。这种结构不仅便于遍历和检索文本块,还能有效分析文档间的关联。

图片

3) 混合推理:符号决策、向量检索与大模型混合推理

我们在 KAG 中构建了一个混合推理引擎,旨在解决知识图谱在严谨决策中的应用问题。目标是开发一套技术范式,支持复杂推理决策的执行,同时通过信息检索来弥补知识图谱的不足。

图片

该框架采用符号驱动的方法生成逻辑可执行的查询表达式(Logic form Query)。通过图结构操作,利用分层知识进行决策:先在逻辑知识层检索,若无解则转向开放信息层,再通过关联文档检索提高召回率和准确性。在生成阶段,我们应用 query-focused summary 方法,以通过查询结构提取答案,解决传统知识图谱与用户查询的粒度匹配问题。同时,基于知识图谱的反馈有助于抑制语言模型生成中的幻觉,提高准确性。系统将问题拆解为逻辑符号表达,可转化为 KGDSL 或 GQL。我们的两阶段规划包含图谱存储中的精确匹配和 SPO 子图检索,最后集成知识图谱以减轻幻觉。通过文本抽取的三元组注入语言模型,在生成时遵循结构范式,有效降低幻觉率。这种方法在内部业务中如区域风险报告生成中已显著改善,我们将继续深入探索这一方向。

4) 语义对齐:平衡信息检索与专业决策

问题的关键在于如何有效整合信息检索和专业决策。信息检索允许一定的错误率,而专业决策对准确性要求则是严格的。因此,我们通过开放信息抽取构建结构化知识,并应用 schema 约束以提升决策的严谨性。此外,基于概念的语义对齐让我们能兼顾这两者,形成一个基于 SPG 的领域知识图谱,从而改善信息检索和专业决策的能力。

图片

我们通过传统图谱方法,如实体链接和概念分层等,提升了图结构的稠密性和语义完备性。借助与浙江大学的 OpenKG 合作,推进 OneGraph 项目,我们致力于通过增强知识对齐能力,降低构建成本。同时,在垂直领域的探索中,例如医疗和法律术语的应用,我们优化了开放抽取的效率,显著提升了与领域知识的对齐准确性。我们的框架在通用数据集上较现有 SOTA 的 F1 提高了 10-20 个百分点,并在实际应用中,比如政务和医疗问答场景,取得了显著的精度提升,表明其在专业决策中的有效性。

5) KAG 模型:定义 LLMs 与 KGs 之间的协同任务

KAG 模型旨在降低大型语言模型(LLMs)与知识图谱(KGs)结合的成本,利用指令合成技术使较小模型在性能上接近更大模型。我们对 LLMs 和 KGs 的能力进行对齐,强调自然语言理解、推理和生成能力,确保从文本中提取结构化信息并提升知识融合效率。结构化、语义化的知识图谱和原始文档之间形成了良好的双向映射,从文本到图谱则是刻画文本内的关键信息和符号结构,从图谱到文本则是描述文本生成中所必须满足的知识和逻辑约束。

图片

为构建知识图谱,我们注重知识点的文本可解释性,要求附带描述信息、关联原始文本段, 避免仅只有原始词条。知识图谱的结构化特性有助于生成高质量指令,通过逻辑拆解和语义关系合成提升大语言模型自然语言理解和推理能力。此外,指令的合成和语义对齐使小参数量模型达到接近或超越更大参数模型的效果,同时大幅提升性能。实践中发现图谱指令合成微调后的小模型在概念补全、信息抽取等图谱专用任务上的准确率均高于更大参数模型。

3. KAG 在垂直领域的典型应用

今年以来,我们在业务应用中不断完善 KAG 框架。在支付宝 AI 生活管家 “支小宝” 的热点事件功能、政务民生场景,以及研报生成类任务,KAG 都能够生成逻辑上更为准确的内容。此外,支付宝今年在政务办事和医疗健康两个重要功能升级中也应用了知识图谱技术。例如,“去医院针灸能否报销?” 这一问题包含了特定条件,而带有条件的检索是传统搜索引擎或向量计算所不具备的功能。通过知识图谱的方式,我们可以更有效地找到相关知识并生成更加完备的回答。

近期,蚂蚁将发布 KAG 的整体技术报告。我们希望真正融合知识图谱的符号计算和向量检索的优势,因为它们在很多方面是互补的。同时,利用大型语言模型的理解和生成能力,构建一个知识增强的大语言模型生成系统。

图片

在这个过程中,我们首先需要解决的是垂直领域应用的问题。系统既能进行复杂的符号决策,又能在复杂符号决策无法满足需求时,通过向量检索进行补充。在框架的后续版本中,我们将提供一些用户可调的参数。这意味着,如果用户对准确率有极高要求,可以减少基于信息检索生成的内容;如果对准确率有一定容忍度,则可以适当放宽标准。这为用户提供了一个可调节的垂直领域解决方案。因为并不是所有垂直领域应用场景都要求绝对的准确率,而是存在一定的容忍范围。因此,我们可以为用户提供更多的动态选择。

除了上述工作,为加速知识图谱与大语言模型的双向融通,蚂蚁集团也和浙江大学成立了知识图谱联合实验室。联合实验室已发布了大模型抽取框架 OneKE,下一步还将构建增强语言模型的 OneGraph。 

后记:在 2024Inclusion・外滩大会 “超越平面思维,图计算让 AI 洞悉复杂世界” 见解论坛上,美国伊利诺伊大学芝加哥分校计算机科学与技术系特聘教授俞士纶、国际关联数据基准委员会(LDBC)副主席 Alastair Green、中国人寿财产保险有限公司人工智能开发团队负责人孔宇飞、蚂蚁数字科技 AI 技术负责人章鹏、蚂蚁集团图计算解决方案架构师崔安颀等嘉宾也带来了精彩分享,更多观点可点击此链接查看。
产业2024 Inclusion・外滩大会
相关数据
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

关联数据技术

关联数据是一组用来描述用户任务运行环境以及在区域中连接用户任务方式的信息。用户任务是与用户定义的事务相关的任务,或与 CICS® 提供的事务相关的任务。CEMT 是通常由操作员启动的用户启动任务示例,CSMI 是由系统代表用户启动事务启动的任务示例。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

蚂蚁集团机构

蚂蚁集团是移动支付平台支付宝的母公司,也是全球领先的金融科技开放平台,致力于以科技和创新推动包括金融服务业在内的全球现代服务业的数字化升级,携手合作伙伴为消费者和小微企业提供普惠、绿色、可持续的服务,为世界带来微小而美好的改变。

http://www.antgroup.com
文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
实体链接技术

在自然语言处理中,实体链接,也称为命名实体链接(NEL)、命名实体消歧(NED)。实体链接的任务是为文本中提到的实体(例如着名的个人,地点或公司)分配唯一的身份。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~