2024/12/04 15:47

质量超越o1，成本仅4%，UCSD张怡颖教授团队开源生成式AI工作流自动优化器

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

近几年在生成式 AI 技术和商业创新飞速发展的背景下，创建高质量且低成本的生成式 AI 应用在业界仍有相当难度，主要原因在于缺乏系统化的调试和优化方法。

近日，UCSD 张怡颖教授的 GenseeAI 团队推出了首款可自动提升 AI 工作流生成质量并降低生成成本的工具 Cognify。Cognify 可以自动优化 AI 工作流，支持 LangChain、DSPy、Python 等语言框架。Cognify 的核心思路是一种创新的分层工作流级优化方法。Cognify 可将生成式 AI 应用的生成质量提高多达 48%，并将执行成本降低多达 90%。Cognify 现已开源。

开源地址：https://github.com/GenseeAI/cognify

生成式 AI 工作流

当前的生成式 AI 产品通常都是以生成式 AI 工作流的形式构建和部署。AI 工作流内部可以调用各类 AI 模型、工具、数据源及其他类型的系统。典型的 AI 工作流包括 Agent 工作流和 LLM+RAG 等。

与单次调用 AI 模型相比，AI 工作流提供了更强大、可定制和集成化的解决方案。当前业界的 AI 工作流通常由工程师编写。在部署之前，工程师需要手动调整 AI 工作流的结构和提示词（prompt），并为工作流中的各个步骤选择合适的模型。

然而，由于缺乏系统化的调优方法，AI 工作流的部署经常非常耗时，已部署的工作流也可能面临质量不佳、不稳定或成本太高等问题。虽然有许多生成式 AI 工作流的开发框架，比如 Coze，Dify，LangChain，DSPy 和 Claude MCP，但是并没有可以帮助开发者系统调试和优化工具。

Cognify 优化器

Cognify 是一款全面、多目标的开源 AI 工作流优化器。Cognify 的优化过程基于自动选择 AI 模型、改进工作流结构和增强提示词。Cognify 实现了工作流的多目标优化，包括提高生成质量和低生成成本。

对于不同的应用场景，Cognify 都用相同或更小的模型达到了更高的生成质量，推动了质量 - 成本 Pareto 边界，并且允许用户选择不同的质量 - 成本组合（结果如下图所示）。在此过程中，Cognify 的优化实现了「一键」全自动化。

同时，Cognify 也允许用户自定义优化方法 Cogs（Cognify 把各种优化统称 Cog），备选模型种类，以及最多优化次数。Cognify 目前支持 LangChain、LangGraph、DSPy 和基于 Python 开发的工作流。

Cognify 核心技术

全局级别的工作流超参数调优

Cognify 的核心理念是对整个工作流进行优化，而不是在每个单独的工作流组件中进行优化。由于上游组件的生成结果对下游组件的性能有重大影响，孤立的优化各个组件可能导致最终生成质量不佳，而且整体运行成本增加。

Cognify 通过实验各种 Cog 组合，并通过最终生成的质量评估这些组合的效果，从而优化整个工作流。

在整体工作流优化中，一个关键挑战是优化成本，包括模型运行成本和耗时。一个简单的做法是对每个可能的 cog 组合进行网格搜索，但这会导致指数级增长的优化成本。为了解决这个问题，Cognify 采用了两种策略。

首先，Cognify 将工作流视为一个优化对象，并将所有可能的 Cog 视为其超参数 (hyperparameter)。Cognify 为工作流超参数设计了一套新的贝叶斯优化器（Bayesian Optimizer），用于调优这些工作流超参数。特制的优化器能够有效探索 cog 组合空间。其次，Cognify 将 cog 分为两层：外循环包含更改工作流结构的 cog（例如添加或移除组件或重新排列它们的顺序），内循环包含不影响工作流结构的 cog（例如提示词调优和模型选择）。这种双层方法减少了贝叶斯优化器需要探索的整体搜索空间。

CogHub：AI 工作流优化器集合

与 Cognify 同时推出的是 CogHub——一个开源 cog 集合。就像 HuggingFace 集合了开源的模型，CogHub 集合了开源的 AI 工作流优化方法。CogHub 在被 Cognify 内部调用的同时也面向程序员或未来的生成式 AI 工具。

CogHub 现支持以下五种 cogs：

任务分解 (Task Decomposition)（外循环）：将一个任务（一次 LLM 调用）分解为多个细分的子任务（多次 LLM 调用）。
任务集成 (Task Ensemble)（外循环）：构建并结合多个模块来完成任务。
多步推理 (Multi-step Reasoning)（内循环）：要求 LLM 逐步推理。
少样本学习 (Few-shot Learning)（内循环）：从输入样本中添加一些高质量的示例演示。
模型选择 (Model SelectioN)（内循环）：评估不同的模型。

优化案例

以下是一个数据可视化任务的例子。任务目标是由手机销售数据生成针对每个厂商每个季度的销量的箱型图，并计算每个手机商的销售平均值，最终用平均值线表示。

下图展示了几个生成图的对比， 1) 人工画的基准图，2) 直接询问 OpenAI o1，3) 直接运行 MatPlotAgent 工作流，4) DSPy 优化过的工作流，以及 5) 由 Cognify 优化过的工作流。Cognify 优化过的工作流返回的结果几乎与基准图吻合，质量显著优于其他方案。与此同时，Cognify 优化过的工作流的运行成本仅有 o1-preview 的 4%。

^{图 A：人工画的基准}

^{图 B：GPT o1-preview 的生成图}

^{图 C：原生成式 AI 工作流的生成图}

^{图 D：DSPy 优化过的生成式 AI 工作流生成图}

^{图 E：Cognify 优化过的生成式 AI 工作流生成图}

GenseeAI 简介

GenseeAI（gensee.ai）是由 UCSD 张怡颖教授带领的初创公司。GenseeAI 致力于生成式 AI 工作流优化、部署、推理和基础平台创建，目前已在多家世界 500 强公司推广初期产品。张怡颖教授师从图领奖得主 David Patterson 学门，是计算机系统领域的国际顶尖专家，获得业界和学术界多项大奖和广泛认可。GenseeAI 的其他核心团队来自于美国谷歌和 Snap 等高科技公司，具有开发和运营日活跃用户上亿级别的 AI 产品的经验。

产业AI 工作流优化器GenseeAICognify

相关数据

网格搜索技术

网格搜索是一项模型超参数优化技术，常用于优化三个或者更少数量的超参数，本质是一种穷举法。对于每个超参数，使用者选择一个较小的有限集去探索。然后，这些超参数笛卡尔乘积得到若干组超参数。网格搜索使用每组超参数训练模型，挑选验证集误差最小的超参数作为最好的超参数。

来源：Deep Learning Book

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型，最简单的模型最有可能是最佳选择（奥卡姆剃刀）。

来源：维基百科

优化器技术

优化器基类提供了计算梯度loss的方法，并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法，如梯度下降和Adagrad。优化器是提供了一个可以使用各种优化算法的接口，可以让用户直接调用一些经典的优化算法，如梯度下降法等等。优化器（optimizers）类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类，但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer（tensorflow下的优化器包）等等这些算法。

来源：维基百科

数据可视化技术

数据可视化被许多学科视为现代视觉传达的等价物。为了清晰有效地传递信息，数据可视化使用统计图形、图表、信息图和其他工具。数字数据可以使用点、线或条编码，以视觉传达定量消息。有效的可视化帮助用户对数据进行分析和推理。它使复杂的数据更容易理解和使用。用户可以根据特定的分析任务进行数据可视化，例如进行比较或理解因果关系，并且图形的设计原则(即，显示比较或显示因果关系)来进行可视化。表通常用于用户查找特定测量的地方，而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/