项目地址:https://github.com/HKUDS/GraphAgent
论文链接:https://arxiv.org/abs/2412.17029
实验室主页: https://sites.google.com/view/chaoh
港大黄超团队发布GraphAgent: 实现图数据与文本数据的智能融合。GraphAgent通过创新的多智能体协作架构,构建了一个端到端的自动化系统,包括图生成、任务规划和任务执行三个核心智能体。系统巧妙地将语言模型与图语言模型结合,实现了结构化图数据和非结构化文本数据的无缝处理。
通过智能体间的协同配合,GraphAgent不仅可以自动构建和理解知识图谱中的复杂语义关系,还能灵活应对预测和生成等多样化任务,为跨数据类型的智能分析提供了新的解决方案。
研究背景
现实世界的数据呈现出结构化(如图连接)与非结构化(如文本、视觉信息)的双重特性。这些数据中蕴含着复杂的关系网络:一方面是显式的连接关系(如社交网络中的用户互动、行为轨迹),另一方面是实体之间的隐式语义依赖(通常以知识图谱形式呈现)。这种数据的复杂性为处理和分析带来了以下关键挑战:
·数据形式多样化:系统需要高效处理和整合不同形式的信息。以学术网络为例,论文之间通过引用构成显式的图结构关系,而每篇论文的标题、摘要等文本内容则提供了丰富的非结构化语义信息。这些信息的有效融合可用于知识总结、科学问答等应用场景。
·关系的显隐交织:数据中同时存在显式和隐式两类关系。以电商场景为例,用户与商品的交互形成显式的行为图谱,而产品评论和描述则构建了隐式的语义关联。系统需要同时理解和利用这两种关系,以提供更准确的用户-商品交互预测。
·任务类型多元化:不同场景需要系统具备多样化的任务处理能力。在预测型任务方面,系统需要完成节点分类、链接预测等图分析任务;在生成型任务方面,则需要处理基于图增强的文本生成、知识图谱问答等。这要求系统能够灵活适应不同类型的任务要求,同时在处理过程中有效利用数据中的显式关系和隐式语义信息。
为应对上述挑战,本文提出了GraphAgent系统,这是一个创新的多智能体自动化框架。该系统能够同时处理显式图依赖关系和隐式图增强语义关系,有效支持预测性任务(如图结构预测及节点分类)和生成性任务(如文本生成)。GraphAgent主要包含以下三个核心组件:
1.图生成智能体(Graph Generator Agent): 通过多阶迭代的知识抽取和描述增强过程,自动构建语义知识图谱(SKG),以反映复杂的语义依赖关系。该智能体不仅能从非结构化文本中识别关键实体和概念,还能通过知识增强技术丰富图谱的语义表示,为下游任务提供丰富的结构化知识支持。
2.任务规划智能体(Task Planning Agent): 通过智能体自我规划,解读用户的多样化查询并制定相应任务。该智能体能够将自然语言查询转化为明确的任务目标,同时将图数据转换为统一的嵌入结构,以便后续模块有效利用。它实现了从用户意图到具体执行计划的智能映射。
3.任务执行智能体(Task Execution Agent): 基于图语言模型架构,高效执行规划任务,同时自动匹配和调用相应工具来响应用户查询。该智能体通过特殊的图-指令对齐训练和课程学习策略,在预测性和生成性任务中都展现出优异性能。
这些智能体通过精心设计的协作机制无缝配合,将语言模型与图语言模型的优势相结合,有效揭示复杂的关系信息和数据语义依赖。实验表明,该框架在多个基准数据集的图预测和文本生成任务上都取得了显著的性能提升。
GraphAgent架构
为了应对上述挑战,GraphAgent提出了一个完整的自动化智能体框架,其每个组件详细信息如下:
图生成智能体(Graph Generation Agent)
图生成智能体旨在自动构建语义知识图谱(Semantic Knowledge Graph, SKG),通过创新的迭代两阶段工作流程实现深度的语义信息捕获。具体包括:
·知识节点提取阶段
1.输入处理:接收非结构化文本数据,通过定制的系统提示调用大语言模型(LLM)
2.多粒度识别:采用迭代式策略,同时捕获不同层次的知识实体
o高层概念:如"Machine Learning"等领域概念
o细粒度实体:"Self-Supervised Learning"等具体技术
3.分层架构:通过多轮迭代形成层次化的知识体系结构
·知识描述增强阶段
1.节点丰富:为每个提取的节点生成详细的文本描述
2.上下文整合:融入相关的上下文信息,提供完整的知识表示
3.迭代优化:采用创新的迭代更新机制
- 将前一轮描述作为下一轮输入
- 持续扩充和精炼知识内容
- 最终合并多轮结果,形成完整的语义图谱
任务规划智能体(Task Planning Agent)
作为框架的决策中枢,任务规划智能体通过三个关键阶段完成任务规划:
·意图识别与任务制定
1.查询解析:深度理解用户输入意图
2.任务分类:支持三类核心任务
- opredictive_predefined:预定义图的预测
- opredictive_wild:非预定义图的预测
- oopen_generation:开放式生成任务
·图-符号映射
1.统一处理:使用图构建工具(GBW_Tool)转换图结构
2.双重支持:同时处理显式图(G_exp)和语义知识图(G_skg)
3.标准化表示:采用统一的异构图表示方式
·图符号化
4.双层编码:集成预训练文本编码器和图神经网络
5.特征融合:生成文本和图结构的双重表示
6.信息整合:为后续任务提供丰富的特征基础
图动作智能体(Graph Action Agent)
作为框架的执行单元,图动作智能体通过精细的设计实现高效任务处理:
·跨任务处理机制
1.预测任务:通过定制化系统提示引导模型预测
2.生成任务:利用语义知识图增强文本生成质量
3.差异化策略:针对不同任务类型优化处理流程
·图-指令对齐优化
4.类型内对齐:增强特定类型图嵌入的理解
5.类型间对齐:提升异构关系的处理能力
6.双重机制:显著提升模型泛化性能
·任务微调策略
7.课程学习:从简单任务逐步过渡到复杂任务
8.渐进训练:精心设计任务序列确保学习效果
9.性能优化:在各类任务上实现稳定表现
实验
数据集设置
本文实验采用了6个不同类型的数据集进行全面评估。从Table 1可以看出,这些数据集具有不同的特点和任务类型:
为了全面评估GraphAgent在不同任务场景下的性能,我们采用了6个具有代表性的数据集进行实验验证。这些数据集可以分为三类:1) 结构化图数据集,包括用于节点分类的IMDB(11,616个节点)和ACM(10,942个节点)数据集;2) 文本数据集,包括用于文档分类的Arxiv-Papers(153,555个SKG节点)和用于论文录用预测的ICLR-Peer Reviews(161,592个SKG节点)数据集;3) 生成型数据集,包括用于相关工作生成的Related Work Generation(包含875,921个SKG节点,基于多篇论文构建)和用于长文档摘要的GovReport(15,621个SKG节点)。这些数据集在规模、任务类型和复杂度上都具有显著差异,能够很好地验证模型在不同应用场景下的表现。特别是,我们的数据集选择同时涵盖了需要处理结构化图关系的任务和需要理解语义依赖的任务,这与GraphAgent的设计目标高度吻合。
实验效果分析
1.结构化图预测性能
研究团队首先通过零样本学习框架评估了GraphAgent在结构化图任务中的性能。具体实验设置为在IMDB数据集上进行少样本训练(1-shot和40-shot),随后在ACM数据集的1000个未见节点上进行评估。实验结果表明,GraphAgent相比当前最先进的图语言模型HiGPT,在所有评估指标上取得了显著提升,平均改进幅度超过28%。在40-shot设置下的表现尤为突出,Micro-F1、Macro-F1和AUC分别达到74.98%、74.98%和80.90%,相比基准模型分别提升了48.5%、63.5%和27.2%。
这些性能上的显著提升主要得益于GraphAgent的三个核心创新:
·智能图生成机制: 通过图生成智能体自动构建语义知识图谱(SKG),为模型提供丰富的补充信息,有效增强了模型对复杂语义关系的理解能力。
·精确任务规划: 任务规划智能体能够准确理解和分解用户意图,并制定合适的执行策略,使模型能够更好地适应不同类型的应用场景。
·双重优化策略: 创新性地结合了图文对齐和任务微调两种机制,不仅提升了模型的基础能力,还增强了其迁移学习潜力。这一机制使得GraphAgent即使在1-shot等低资源场景下依然保持稳定的性能,展现出在零样本学习等具有挑战性任务中的卓越表现。
2.隐式语义依赖关系的预测任务
研究团队进一步评估了GraphAgent在处理隐式语义依赖关系的预测任务上的表现。实验在Arxiv-Papers和ICLR-Peer Reviews两个数据集上进行,分别考察了论文分类和录用预测这两个典型场景。GraphAgent展现出了三个显著优势:
实验结果展现了GraphAgent的三个核心优势:
·小模型实现大性能: 仅有8B参数规模的GraphAgent在各项评估指标上显著超越了包括Llama3-70b和Qwen2-72b在内的大规模模型,平均性能提升达31.9%。这主要得益于其通过语义知识图谱(SKG)有效捕捉复杂语义依赖关系,并在多个语义层次上实现了局部和全局信息的有效整合。
·强大的泛化能力: GraphAgent展现出优秀的跨任务学习能力,其多任务变体GraphAgent-General在Arxiv-Papers数据集上甚至超越了专门优化的单任务版本。更值得注意的是,即使在零样本场景下,8B规模的GraphAgent也能达到Deepseek-Chat-V2等大型闭源模型的性能水平。
·高效的架构设计: 相比传统的监督微调(SFT)方法和GraphRAG系统,GraphAgent通过整合语义知识图谱和结构化知识表示,不仅提升了模型性能,还显著降低了输入开销,同时有效缓解了大语言模型的幻觉问题。
3.文本生成任务
GraphAgent在图增强文本生成任务的实验评估中取得了显著成果,主要体现在性能评估、与主流模型的对比以及架构效率三个方面。
·在性能评估方面,通过Llama3-70b和Qwen2-72b双重验证,GraphAgent在困惑度(PPL)指标上明显优于基线模型。相比传统的监督微调(SFT)和GraphRAG方法,GraphAgent通过自动构建语义知识图谱,有效增强了模型的推理和理解能力。这从根本上解决了简单输入输出微调或知识注入难以捕捉复杂推理模式的问题。
·在模型对比和架构设计上,GraphAgent展现出独特优势。采用GPT-4作为评判标准的实验显示,GraphAgent较Llama3-8b和Llama3-70b分别提升了114%和45%,在67%的案例中优于同等规模模型,58%的案例中超越主流开源模型。特别值得注意的是,GraphAgent仅需8B参数规模和极少的额外输入开销就实现了这些优异表现,充分证明了基于语义知识图谱的架构设计在提升文本生成能力方面的有效性。
消融实验
消融实验(Ablation Study)评估了GraphAgent的三个关键组件对模型性能的影响,展示出以下主要发现:
·语义知识图谱(SKG)的关键作用: 在预测任务中,移除SKG组件导致性能显著下降(-15.2%),表明自动构建的语义知识图谱为模型提供了至关重要的补充信息。
·图文对齐机制的重要性: 在生成任务中,缺失图文对齐机制造成了最大的性能损失(PPL增加11.282),说明深度的图文理解对于需要复杂推理能力的生成任务尤为重要。
·课程学习策略的有效性: 尽管影响相对较小(预测任务-4.0%,生成任务PPL+0.503),但课程学习策略的移除仍对两类任务产生了负面影响,证明了从简单到复杂任务的渐进式学习安排的重要性。
总结与展望
GraphAgent通过多智能体架构实现了结构化和非结构化数据的有效集成,在多个任务上取得了优异表现。主要贡献包括:
1.框架核心亮点:提出了一个能够无缝集成图推理和语言建模的多智能体框架,通过三个核心组件(图生成智能体、任务规划智能体、任务执行智能体)实现对结构化和非结构化数据的自动化处理。
2.性能突破:该框架能够处理预测性任务(如节点分类)和生成性任务(如文本生成),在多个数据集上展现出优异性能,特别是在使用较小规模模型(8B参数)的情况下,仍能与大规模封闭源模型(如GPT-4、Gemini)相媲美。
3.实验验证:通过实验验证了框架在图相关预测任务和文本生成任务上的有效性,尤其是在零样本学习和跨域泛化方面表现突出。
未来研究方向包括:
·多模态扩展: 计划将框架扩展到视觉信息领域,实现关系型、文本和视觉元素的综合理解与生成。
·性能优化: 进一步提升模型在复杂场景下的泛化能力,减少参数量的同时保持或提升性能。
·应用拓展: 探索更多实际应用场景,如科学研究辅助、商业分析等领域的具体落地。