2024/01/08 11:59

专为数据库打造：DB-GPT用私有化LLM技术定义数据库下一代交互方式

DB-GPT 简化了这些基于大型语言模型 (LLM) 和数据库的应用程序的创建。

2023 年 6 月，蚂蚁集团发起了数据库领域的大模型框架 DB-GPT。DB-GPT 通过融合先进的大模型和数据库技术，能够系统化打造企业级智能知识库、自动生成商业智能（BI）报告分析系统（GBI），以及处理日常数据和报表生成等多元化应用场景。DB-GPT 开源项目发起人陈发强表示，“凭借大模型和数据库的有机结合，企业及开发者可以用更精简的代码来打造定制化的应用。我们期望 DB-GPT 能够构建大模型领域的基础设施，让围绕数据库构建大模型应用更简单，更方便”。据悉，DB-GPT 社区自成立以来，已汇聚了京东、美团、阿里巴巴、唯品会、蚂蚁集团等众多互联网企业的开发者共同参与，短短半年时间便迅速成长为一个近万星的开源社区，受到了行业和开发者的认可。期间也多次登上 GitHub Trending、Hacker News 首页。

如下是 DB-GPT 中的一些演示效果图：

^{图 1: 通过自然语言与数据库对话生成图表}

^{图 2：Excel 对话动态生成分析报表}

^{图 3: 自然语言对话生成分析面板}

在过去的六个月里，DB-GPT 项目的代码已经从最初提交第一行代码到当前版本 0.4.4，随着项目功能的精细打磨和版本的持续迭代，项目团队也随之发布了一篇关于 DB-GPT 的研究论文，该论文详细介绍了项目的核心技术，包括 RAG、多模型管理框架 SMMF、Text2SQL 的自动化微调以及基于数据驱动的 Multi-Agents 等关键特性的实现架构和实验对比。接下来，让我们了解下 DB-GPT 论文的相关内容:

论文地址：https://arxiv.org/pdf/2312.17449.pdf
论文代码：https://github.com/eosphoros-ai/DB-GPT
论文官网：https://dbgpt.site/
英文文档：https://docs.dbgpt.site/docs/overview
中文文档：https://www.yuque.com/eosphoros/dbgpt-docs/bex30nsv60ru0fmx

简介

ChatGPT 和 GPT-4 等大型语言模型（LLMs）展示了它们在模拟人类对话和理解复杂查询方面的卓越天赋，同时引领了一个跨领域融合 LLMs 的新趋势。当这些模型和外部工具相结合，它们的能力得到进一步增强，使它们能够搜索互联网上的相关信息，同时可以利用外部工具创建更复杂、功能更丰富的应用程序。

在数据库领域，传统系统往往依赖技术专家的深厚知识和对领域特定的结构化查询语言 (SQL) 的熟练掌握来进行数据访问和操作。而 LLMs 的出现为自然语言接口铺平了道路，使用户能够通过自然语言查询和数据库进行交互，从而实现了数据库交互的简单化和直观化。

即便如此，如何巧妙地运用 LLM 增强数据库的操作性，以便打造功能强大的终端用户应用程序，仍然是一个悬而未决的难题。目前多数研究采用的一种直接方法，即直接使用常用的 LLM（例如 GPT-4）并通过简洁的少量示例提示（few-shot prompting）或交互式上下文学习（ICL）来进行交互。这一方法的优势在于，它不太可能过度拟合训练数据，并且能够灵活适应新数据，然而，其劣势在于与中型 LLM 的微调方案相比，性能可能尚未达到最佳。

此外，为了进一步促进与数据库的智能交互，众多研究和实践中已尝试将 LLM 支持的自动推理和决策过程（又名 agent）融入到数据库应用程序中。然而，知识代理（knowledge agent）往往是为特定场景和任务量身打造的，而非通用型，这一点限制了它们在广泛应用场景下的大规模使用。虽然在以 LLM 为核心的数据库交互中隐私保护措施至关重要，但这方面的深入研究仍显不足。以往的研究大多是普适性目标，而非针对数据库操作而精心设计的。

在此研究中，作者提出了 DB-GPT 框架，这是一个旨在借助 LLM 技术而打造的智能化、生产级的项目，它使用私有化技术提取、构建和访问数据库的数据。DB-GPT 不仅充分发挥了 LLM 的自然语言理解和生成的潜能，而且还通过 agent 代理和插件机制不断优化其数据驱动的引擎。表 1 展示了 DB-GPT 和 LangChain、LlamaIndex、PrivateGPT、ChatDB 等工具在多个维度的综合比较。综上所述，DB-GPT 具有以下明显优点：

隐私和安全保护。DB-GPT 为用户提供了极致的部署灵活性，允许在个人设备或本地服务器上进行安装，并且能够在没有互联网连接的状态下运行。这确保了在任何时刻，数据都没有离开执行环境，彻底杜绝了数据泄露的风险。在数据处理模块，通过模糊数据集中的个人标识符，大幅度降低私人信息被未经授权访问和滥用的风险。

多源知识库问答优化。与传统的知识库问答系统（KBQA）相比，DB-GPT 设计构建了一条灵活、高效、支持双语的数据处理 pipeline，它能够将多源非结构化数据（例如：PDF、网页、图像等）摄取到中间数据中表示，随后将这些数据存储在结构化知识库中，在此基础上，系统能够高效检索和查询最相关的信息片段，并借助于其强大的自然语言生成能力，为用户提供详尽的自然语言回答。

Text-to-SQL 微调。为了进一步增强生成能力，DB-GPT 对 Text-to-SQL 任务的几个常用 LLM（例如 Llama-2、GLM）进行了微调，从而显著降低了非 SQL 专业知识的用户与数据交互的门槛。据作者了解，在同类研究中，有 LlamaIndex、SQLCoder 等集成了此类微调的替代方案，但它并未针对双语查询进行优化。

集成知识代理（knowledge agent）和插件。Agent 是一款自动推理和决策的引擎。DB-GPT 作为一个完全可用于生产环境的成熟项目，它赋能用户通过高级数据分析技术开发并部署应用会话代理，进而促进数据的交互式应用。此外，它还提供一系列查询和检索服务插件，用作与数据交互的工具。

论文对 DB-GPT 的性能进行了周密的评估，这不仅涵盖了各种基准任务（例如 Text-to-SQL 和 KBQA），还包括了案例研究和调查来评估其可用性和场景偏好。在多数评价指标上，DB-GPT 展现出了优于竞争对手的性能表现。

系统设计

DB-GPT 的整体流程如图 1 所示。在建立检索增强生成 (RAG) 框架时，DB-GPT 系统集成了新颖的训练和推理技术，显著增强了其整体性能和效率。本节将描述每个阶段的设计，包括模型架构以及训练和推理范式。

多源 RAG 知识问答

尽管 LLM 通常在大量的开源数据或其他地方的独有数据上训练，但是仍然可以使用 RAG 技术通过额外的私人数据增强 LLM 知识问答能力。如图 2 所示，DB-GPT 的 RAG 系统架构由三个阶段组成：知识构建、知识检索和自适应上下文学习 (ICL)。

知识构建。DB-GPT 的知识库是一个汇集自各个领域的庞大的文档

的集合，其中文档数量N很大。为了更加精细地处理这些信息，论文将每个文档

分为多个段落

，其中

表示第 n 个文档的段落索引。随后，通过一个编码器 encoder

将每个段落嵌入到多维的 embedding

。值得注意的是，DB-GPT 不仅采用了传统的基于向量的知识表示，还融入了倒排索引和图索引技术，使得用户能够迅速且精准地检索到与上下文相关的数据，如图 3 所示。

知识检索。当接收到语言查询x时，DB-GPT 通过另一个编码器 encoder

将x嵌入到向量 q 中。在此基础之上，DB-GPT 从知识库中检索前 K 个相关段落，其中K是超参数。如图 4 所示，DB-GPT 支持各种检索器模型，例如 Embedding Retriever（根据余弦相似度进行检索）、Keyword Retriever（其中匹配关键词而不是整个句子）。在下面的段落中，默认情况下使用 Embedding Retriever。

学习嵌入和搜索。得益于对编码器

和

的精确训练，DB-GPT 确信更高的相似性分数代表着与查询更为贴切的段落。直观上，真实相关的查询 - 段落对，它们的向量点积

相对较大。DB-GPT 的编码器 encoder 采用了 Multilingual-E5-base 模型架构，旨在优雅的实现双语文档的编码与处理。

LLM 的自适应 ICL 和生成。在这一阶段，DB-GPT 系统通过执行 ICL 来响应生成。系统首先根据和查询 query 的余弦相似度对 K 个搜索结果进行排序，然后选取排名最前的 J 个（其中 J ≤ K）结果，将这些结果插入到预定义的上下文提示模板中，最后 LLM 生成响应。ICL 是一种在训练或推理阶段通过在处理过程中纳入额外的上下文来提高 LLM 性能的技术。ICL 的引入不仅增强了语言模型对上下文的理解，还提高了模型的可解释和推理技能。值得注意的是，ICL 的性能很大程度上取决于特定的设置，包括提示模板、选择的示例、上下文示例的数量以及示例的顺序。在 DB-GPT 系统中，提供了多种制定提示模板的策略（示例见清单 1）以适应不同的需求。此外，论文采用了相应的隐私保护措施，确保个人信息得到妥善保存。

部署和推理：面向服务的多模型管理框架 SMMF

模型即服务 (MaaS) 是一种云端的人工智能的服务模式，它向开发人员和企业提供即时可用的预配置、预训练的机器学习模型。在 DB-GPT 框架中，为了精简模型的适配流程，提升运作效率，并优化模型部署的性能表现，提出面向服务的多模型框架（SMMF）。该框架旨在为多模型部署和推理提供一个快速和便捷的平台。

SMMF 主要由模型推理层和模型部署层两个部分组成。模型推理层是一个专门为了适配多样化的 LLM 而设计的推理平台，包括 vLLM、文本生成推理 (TGI，HuggingFace 模型推理) 和 TensorRT。而模型部署层则承担着桥梁的角色，充当了底层推理层和上层模型服务功能之间的媒介。

模型部署层：在 DB-GPT 的模型部署框架层内，一系列组件协同工作。由 API server 和 model handler 组成的任务负责向应用程序层提供强大的模型服务功能。model controller 占据中心位置，不仅负责元数据的治理，同时也充当大规模部署架构的纽带。此外，model worker 的作用至关重要，它直接与推理设备和底层基础环境直接连接，确保模型能够发挥最佳的性能。

Multi-agent 策略

DB-GPT 是一个多角色支持的系统，为数据分析师、软件工程师和数据库架构师等用户提供与数据库交互的全流程体验，同时配备了精心编排设计的标准操作程序（SOPs）。受到 MetaGPT 理念的启发，DB-GPT 为不同 agent 分配不同的角色，发挥其独特的优势和专长来解决具有挑战性的任务。通过精准的协调机制，DB-GPT 实现了不同 LLM agents 间的高效协作，促进它们之间沟通、共享信息和集体推理。基于 Text-to-SQL 微调后的 LLM，DB-GPT 可以快速开发和部署具有与数据库高级交互能力的智能 agent。此外，与适用于特定用例且行为受限的 LlamaIndex 组件不同，DB-GPT 使 agent 在更少的约束下具有更强的通用推理能力。

数据库插件

虽然 LLM 具有强大的能力，但它并非在每项任务上都能发挥最佳性能表现。LLM 可以通过合并插件来执行多个步骤，收集相关信息，而非直接回答问题。区别于通用的插件，DB-GPT 的插件专门为数据库交互模式而设计。这种设计有利于通过自然语言查询数据库，简化用户查询表达式，同时增强了 LLM 的查询理解和执行能力。数据库交互模式由模式分析器 (schema analyzer) 和查询执行器 (query executor) 两个组件组成。模式分析器 (schema analyzer)，负责将模式解析为 LLM 可以理解的结构化表达；查询执行器 (query executor)，则负责根据 LLM 的自然语言响应在数据库上执行相应的 SQL 查询。另外，DB-GPT 还与第三方服务集成，例如 WebGPT 中提出的 web search，用户无需离开聊天即可在另一个平台上执行任务。借助这些插件，DB-GPT 能够以强大的生成能力（论文将其称为生成数据分析）来执行多个端到端数据分析问题。具体详情可以参阅论文的说明性示例。

模型训练

RAG 的实现代码参考了开源项目 LangChain 的代码。Web 端的 UI 实现细节，可以参考作者的另一个开源项目：https://github.com/eosphoros-ai/DB-GPT-Web。其余的训练细节请参考原论文，或者访问 DB-GPT 开源项目地址：https://github.com/eosphoros-ai/DB-GPT，来获取更加全面准确的信息。

实验

论文中提出了旨在评估 DB-GPT 系统性能的实验，包括 Text-to-SQL 响应的生成质量和 MS-RAG 的 QA 性能，并提供生成数据分析的定性结果。

Text-to-SQL 验证

在公有数据集 Spider 上，本项目采用了 Text-to-SQL 的技术进行评估，其中训练使用 train 集，评估使用 dev 集。评估指标使用的是执行准确率（Execution Accuracy, 简称 EX）。该指标通过对比预测的 SQL 查询结果与特定数据库实例中的真实 SQL 查询结果来衡量。EX 越高，代表模型性能越好。考虑到双语文本支持需求，在 DB-GPT 框架实验中选取了 Qwen 系列和 Baichuan 系列作为基础的 LLM，实验结果如表 2 所示。

表 2 显示了 DB-GPT 系统在 Text-to-SQL 微调 pipeline 的有效性，无论是通义千问模型还是百川模型，微调后模型 EX 指标都有显著提升。

RAG 验证

论文在多种开放域问答（open-domain QA）任务中对 RAG 框架进行了实验。作者专门构建了两个 QA 数据集，分别聚焦于数据库领域和金融领域：DatabaseQA 和 FinancialQA。在构建 DatabaseQA 时，作者从三个代表性数据库系统（OceanBase、MySQL 和 MongoDB）中收集了 1000 个 PDF 形式的公开教程作为素材。而 FinancialQA 的素材则是从研究机构出版的文档样本中抽取了 1000 个。对于每个数据集，论文构建 100 个测试问题，这些问题均由专家根据难易程度进行注释。有关数据集的更多详细信息，请参阅论文附录。

为了确保答案质量评估准确性，论文指定三位专家对每个回复进行打分，评分范围为 0 – 5 分，其中较高分数代表更为优质的答案。评分结果取三位专家评分的平均值，以此作为最终得分。论文选取 4 个 LLM 作为基础模型，分别是：Qwen、Baichuan、ChatGLM 和 ChatGPT3.5。由于 ChatGPT3.5 并非开源模型，作者无法在框架中对其进行 Text-to-SQL 的微调。RAG 在两个数据集上的实验结果如表 3 和表 4 所示，在所有测试的数据集上，并没有一个模型能够在所有的情况下都胜出：ChatGPT-3.5 在 DatabaseQA 数据集上表现最佳，而 ChatGLM 在 FinancialQA 数据集上获得最佳性能。DB-GPT 集成了大部分流行的开源和商业 LLM，用户可以根据自己的 RAG 任务需求自由选择最适合的模型。

SMMF 验证

DB-GPT 集成了 vLLM 作为主要推理框架，实验过程中，为了保持一致性，论文将每一个输入提示（prompt）的长度固定为 8 个 token，并将输出的最大长度设置为 256 个 token。实验采用了以下三个评价指标：

首字延迟 First Token Latency (FTL)：以毫秒为单位，代表 DB-GPT 模型部署框架收到请求时该时刻开始，到进行推理解码第一个 token 所花费的时间。
推理延迟 Inference Latency（IL）：以秒为单位测量，表示从 DB-GPT 模型部署框架接收到模型推理请求到生成完整的响应的时间。
吞吐量：DB-GPT 模型部署框架每秒中处理的所有用户和所有请求的 token 数量。

Qwen 和 Baichuan 模型在 SMMF 方法上的实验结果如表 5 和表 6 所示，结果表明使用 vLLM 模型推理框架显著提高了模型的吞吐量，同时大幅度降低了首字延迟和推理延迟。值得注意的是，随着数量并发用户数增加，使用 vLLM 框架推理带来的性能提升变得特别明显。因此，DB-GPT 选择将 vLLM 集成为 SMMF 使用的默认推理框架。

其他实验细节可以参考原论文附录。

面向未来

经过这一年的实践与抽象，为了具备更广泛的生产级应用能力，DB-GPT 对架构进行了分层。如下图所示，主要分为以下 7 层，自上而下以此为:

可视化层：可视化层主要的工作是对话、交互、图表显示、可视化编排等能力。
应用层：基于底层能力的应用构建，如 GBI 应用、ChatDB 类应用、ChatData 类应用、ChatExcel 类应用等。
服务层：服务层主要是对外暴露的服务，比如 LLMServer、APIServer、RAGServer、dbgptserver 等。
核心模块层：核心模块主要有三个分别是，SMMF、RAGs、Agents。
协议层：协议层主要是指 AWEL (Agentic Workflow Expression Language), 即智能体编排语言，是专门为大模型应用开发设计的智能体工作流表达式语言。
训练层：训练层主要关注 Text2SQL、Text2DSL、Text2API 方向的微调，提供标准的微调脚手架。
运行环境：运行环境是指整个框架的运行在什么环境当中，我们后期会优先支持基于 Ray 与 Kubernetes 的环境。

^{DB-GPT 整体架构设计图}

用户可以基于这些基础框架能力，更好的打造生产级应用。更多关于 DB-GPT 的进展可以关注其社区。

附录

DB-GPT 论文：DB-GPT: Empowering Database Interactions with Private Large Language Models.
DB-GPT 框架开源项目：https://github.com/eosphoros-ai/DB-GPT
DB-GPT 前端可视化项目：https://github.com/eosphoros-ai/DB-GPT-Web
DB-GPT Text2SQL 微调项目: https://github.com/eosphoros-ai/DB-GPT-Hub
DB-GPT 插件仓库: https://github.com/eosphoros-ai/DB-GPT-Plugins
Text2SQL 学习资料与前沿跟踪: https://github.com/eosphoros-ai/Awesome-Text2SQL

产业蚂蚁集团DB-GPT

相关数据

查询理解技术

数据分析技术

数据分析是一类统计方法，其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系，并绘制出统计信息图，以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据，以便弄清哪些是同质的，从而更好地了解数据。数据分析可以处理大量数据，并确定这些数据最有用的部分。

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

自然语言理解技术

自然语言理解是人工智能的核心课题之一，也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间，都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻，它一方面承载着机器和人的交流，另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯，机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA（Ask Me Anything）栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

来源：机器之心

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

商业智能技术

商业智能（Business Intelligence，BI），又称商业智慧或商务智能，指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

来源：百度百科

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

知识库技术

知识库是用于知识管理的一种特殊的数据库，以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家，它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。

来源：维基百科

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

查询语言技术

查询语言泛指向数据库或信息系统查询的各种编程语言。查询语言必须要能表达所有关系代数所能表达的查询，这样才被称为关系完整的。

来源：维基百科

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

自然语言生成技术

自然语言生成（NLG）是自然语言处理的一部分，从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时，心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式，因为自然语言多样的表达。NLG出现已久，但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向：自然语言理解系统须要厘清输入句的意涵，从而产生机器表述语言；自然语言生成系统须要决定如何把概念转化成语言。

来源：维基百科

美团机构

美团的使命是“帮大家吃得更好，生活更好”。作为中国领先的生活服务电子商务平台，公司拥有美团、大众点评、美团外卖、美团打车、摩拜单车等消费者熟知的App，服务涵盖餐饮、外卖、打车、共享单车、酒店旅游、电影、休闲娱乐等200多个品类，业务覆盖全国2800个县区市。

www.meituan.com

阿里巴巴机构

阿里巴巴网络技术有限公司（简称：阿里巴巴集团）是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/

蚂蚁集团机构

蚂蚁集团是移动支付平台支付宝的母公司，也是全球领先的金融科技开放平台，致力于以科技和创新推动包括金融服务业在内的全球现代服务业的数字化升级，携手合作伙伴为消费者和小微企业提供普惠、绿色、可持续的服务，为世界带来微小而美好的改变。

http://www.antgroup.com

京东机构

京东（股票代码：JD），中国自营式电商企业，创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com