2024/07/04 18:07

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

该文章的作者团队来自于斯坦福大学，共同第一作者团队Mert Yuksekgonul，Federico Bianchi, Joseph Boen, Sheng Liu, Zhi Huang

Mert Yuksekgonul，斯坦福大学博士生，师从James Zou 和 Carlos Guestrin教授。研究方向包括 AI系统自我优化以及其安全性和可靠性。

Federico Bianchi，Xyla AI 工程师，斯坦福大学博后，师从 Dan Jurafsky 和 James Zou教授。研究方向为机器学习和大语言模型的开发。

Joseph Boen，斯坦福大学博士生，师从James Zou，研究方向为AI在科学中的应用。

刘晟，美国斯坦福大学博后，师从 James Zou和 Lei Xing 教授，博士毕业于纽约大学数据科学和人工智能。研究方向包括深度学习的安全性和可靠性，多模态大语言模型，以及AI在生物医疗方向应用。

黄治，现宾夕法尼亚大学教授，斯坦福大学博后。博士毕业于普渡大学。研究方向为生物医学工程，AI在病理学的应用。

^{TextGrad 团队}

用文本做梯度下降？！最近，来自斯坦福大学的研究者，推出了全新的 TextGrad 框架，来高效协调和优化由大语言模型 (LLM) 等组件构成的 AI 系统，自动优化端到端任务性能。

目前，用 GPT-4o 作为引擎的 TextGrad 优化后的 AI 系统能实现：

LeetCode-Hard 最好的结果
GPQA SoTA
发现新的分子同时兼顾药效和毒性等多个优化目标
设计出超过人工的癌症放疗计划

TextGrad website: http://www.textgrad.com/
TextGrad paper: https://arxiv.org/abs/2406.07496
TextGrad Github：https://github.com/zou-group/textgrad

生成式人工智能正处于从单一模型训练向复杂系统优化的范式转变中，开发合成 AI 系统的原则化自动优化方法成为当下最重要的新挑战之一。如何高效协调优化大语言模型 (LLM) 等 AI 组件，自动优化端到端任务性能，成为当前最紧迫的挑战之一。要说 AI 界有多卷，还得看斯坦福大学。这两天，斯坦福大学的研究者们又放大招了，推出了全新的 TextGrad 框架，为这一难题提供了一种全新的解决方案。借鉴了同是斯坦福发布的 DSPy，融合了 PyTorch 的强大梯度反向传播功能，实现自动优化复杂 AI 系统。本文将深入剖析 TextGrad 的核心理念和优化机制，探讨它的广阔应用前景，展望语言驱动优化的未来图景。

核心思想

TextGrad 将 LLM 应用视为一个计算图 (Computation Graph)，以自然语言为媒介实现不同组件之间的 "梯度" 传递。通过从语言模型的输出中反向传播文本反馈到所有可能的早期组件，来优化各种系统中的各种变量。在 TextGrad 中，一切都是文本，这意味着我们使用语言模型来 1）评估输出，2）批评输出，3）更新输入。这一过程有点类似于 PyTorch 的反向传播，只不过传播的不再是数值梯度，而是文本形式的反馈。

这种统一的语言交互界面赋予了 TextGrad 极强的普适性，它将 prompt、question、output 等都视为 variable，不要求其可微，具有超强的兼容性。TextGrad 能和任意支持自然语言 I/O 的 LLM 或者其它 API 无缝协作，也不要求计算图中的其他函数可微。这使得它非常适合集成 retrieval、tool calling 等 plug-and-play 能力，构建灵活多变的复合 AI pipeline。TextGrad 也不需要手工设计 prompt，自动搜索最忧的任务描述直接参与优化。这让开发者从 prompt engineering 中解放出来，有望自动找到更棒的 in-context learning 范式。

TextGrad 能做什么？

1. 提示（prompt）工程通过 TextGrad 优化的 prompt，能将 GPT-3.5-turbor 的 QA 准确率从 78% 提升到了 92%，而且只需进行少量几次的优化迭代。如果你想复现这个成果并进一步探索 TextGrad，TextGrad 团队已经为你准备好了一个简单的教程。

^{TextGrad 能被非常简单方便地应用到 prompt engineer（提示工程）上。}

2. 优化模型输出除了更新模型的 prompt，模型的回答（response）以及文字表示的输出，也能够得到 TextGrad 的优化。上图， TextGrad 优化了 LLM 生成的 LeetCode 问题的代码。

还有更多 AI for science 的应用！

药物探索（Drug Discovery）

使用 TextGrad，我们可以优化化学结构的两个关键属性：药物相似性（即药物在体内吸收的难易程度）和结合亲和力（即药物与靶蛋白结合的紧密程度）。药物相似性通过 QED 评分来衡量，范围是 0 到 1，1 表示最符合药物特性；结合亲和力通过 Vina 评分来衡量，评分越负越好。

^{左图：在 TextGrad 优化 10 次迭代前后的分子药物相似性和结合亲和力分布，与针对相同靶蛋白的临床批准药物进行比较。右图：TextGrad 优化 10 次迭代的示例轨迹，比较临床批准药物的属性。}

肿瘤放疗治疗计划（Radiotherapy Treatment Planning）

TextGrad 也可以用来优化放射治疗计划，该计划确定放射治疗所需的剂量并精确定位需要治疗的部位。特别是，治疗计划的目标是将规定的辐射剂量传递到肿瘤，同时保护关键的正常组织免受不安全剂量的影响。医生通常通过不断试错，反复调整优化治疗计划，直到计划符合临床要求。这使得整个过程效率低下、耗时且成本高昂。TextGrad 则自动向 AI 主导的规划系统提供梯度，优化放射治疗计划，自动权衡肿瘤和附近健康组织。

TextGrad 用语言打通了不同认知模块之间的屏障。它让 LLM 参与到了自己的迭代优化中，通过内省、评判、创造等 high-level 的认知能力实现持续进化。从本质上看，TextGrad 的意义远不止于优化 pipeline 的性能，它向我们展示了一种通过语言实现 AI 自我认知、自我修正的可能性。这条 “Language-Driven Optimization” 的道路，或许也是目前很多 “幻觉问题” 的一剂良药。TextGrad 已经被应用到解决很多科学和医学方面的问题！更多的应用等着你来探索和发现！

产业斯坦福大学TextGrad 框架

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。要使用梯度下降找到函数的局部最小值，可以采用与当前点的函数梯度（或近似梯度）的负值成比例的步骤。如果采取的步骤与梯度的正值成比例，则接近该函数的局部最大值，被称为梯度上升。

来源：Vapnik V. N. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag.Wikipedia

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/