2023/12/25 11:34

大模型竟然能玩手机了，还能用软件修图：「AppAgent」会成为2024年的新趋势吗？

这就是2024年的新趋势吗？

近日，一项名为 AppAgent 的创新技术引起了广泛关注。

简单来说，AppAgent 的智能代理能力可以用于操作任何 App，它在 50 个复杂手机任务上展示了强大的能力。

AppAgent 幕后团队来自腾讯，相关技术论文也已经公布。

论文地址：https://arxiv.org/abs/2312.13771
主页地址：https://appagent-official.github.io/

据论文介绍，这项技术通过引入一种基于大型语言模型（LLMs）的多模态智能代理（Agent）框架，赋予了智能体操作智能手机应用的能力。与传统的智能助手如 Siri 不同，AppAgent 不依赖于系统后端访问，而是通过模拟人类的点击和滑动等操作，直接与手机应用的图形用户界面（GUI）互动。这种独特的方法不仅提高了安全性和隐私性，还确保了智能体能够适应应用界面的变化和更新。

AppAgent 的核心在于其创新的学习方式。智能体可以通过自主探索或观察人类演示来学习如何导航和使用新应用。在自主探索过程中，智能体通过一系列预定义的动作与应用互动，观察每个动作带来的界面变化，从而构建知识库。这个过程还可以通过观察少数几个人类演示来加速，使智能体能够更快地理解复杂功能。

为了验证其实用性，研究团队对 AppAgent 进行了广泛测试，覆盖了社交媒体、电子邮件、地图、购物以及复杂的图像编辑工具等 10 种不同的应用中的 50 个任务。测试结果证明，AppAgent 在处理各种高级任务方面表现出色，显示出其适应性、用户友好性以及高效的学习和操作能力。

推特大 V Andrew Torba 评价道：「一切都结束了，自 2017 年以来整个互联网都已经是 AI 的天下。互联网已死的理论是真实的。构建并推动尽可能多的基于 AI 的机器人来充斥网络空间，用红色药丸 (来自电影《黑客帝国》) 淹没它们是唯一的出路。」

推特用户 Ate-a-Pi 评价道：「它来了！苹果的创新者困境。如果代理完成所有工作，那么优秀的智能手机用户界面有什么意义呢？如果代理使得智能手机操作系统变得多余，苹果将怎么做？他们有多长时间来解决这个问题？」

推特用户 Morally Clear 评价道：「AI 代理将会成为 2024 年的 ChatGPT。」

也有很多用户表示了对此项技术的担心。

推特用户 Benjamin Cox 评价道：「这太疯狂了。我们所知的应用程序可能仅仅会变成集成。此外，机器人用户参与度指标将变得完全不可靠。」

推特用户 Karma 表示了这项技术可能被用来非法牟利：“建立一个拥有 500,000 台这样的服务器农场。点击你在 Instagram 或 Twitter 上看到的每个广告。短期投资你点击的广告公司并购买 Meta、X 和其他社交媒体应用的看涨期权？利润？谁在进行这项工作？”

推特用户 Logan Thorneloe 评价道：“这太酷了！但是我知道它会被用来制造水军机器人，这让我有些担心。”

方法概述

环境搭建

AppAgent 的实验环境是基于命令行界面（CLI），使得代理能与安卓系统上的智能手机应用进行交互。代理接收两种关键输入：一是展示应用界面的实时屏幕截图，二是详细描述交互元素的 XML 文件。为了提升代理识别和交互这些元素的能力，每个元素都被赋予了一个唯一标识符。这些标识符要么来源于 XML 文件中的资源 ID（如果提供），要么通过结合元素的类名、大小和内容来构建。这些以半透明数字形式覆盖在屏幕截图上的元素，帮助代理在不需指定精确位置的情况下准确互动，从而提升控制手机的精确度。

动作空间模拟了人类与智能手机的常见交互方式，包括点击和滑动。设计了四个基本功能：点击（Tap）、长按（Long_press）、滑动（Swipe）和文本输入（Text），以及两个系统级功能：返回（Back）和退出（Exit）。这些预定义动作旨在简化代理的交互流程，并减少对精确屏幕坐标的依赖，解决了语言模型在准确预测中可能遇到的挑战。

App 探索阶段

探索阶段是 AppAgent 框架的核心，代理通过自主交互或观察人类演示来学习应用程序的功能和特性。在自主交互模式下，代理被分配一个任务并开始与 UI 元素进行自主互动。它尝试不同的动作，并观察应用界面的变化以理解其工作原理。代理通过分析每个动作前后的屏幕截图，尝试弄清楚 UI 元素的功能和特定动作的效果，并将这些信息编译成文档，记录下不同元素所执行动作的效果。当一个 UI 元素被多次操作时，代理会根据之前的文档和当前的观察来更新信息，以提高认知质量。

为了提高探索效率，如果当前 UI 页面似乎与应用的主要任务无关（如广告页面），代理将停止进一步探索并使用 Android 系统的返回功能返回到前一个 UI 页面。这种目标导向的探索方法，相比随机探索（如深度优先搜索和广度优先搜索），确保代理专注于对应用有效操作至关重要的元素。此外，代理还利用语言模型的现有关于用户界面的知识来提高探索效率，直到完成分配的任务。

在通过观察人类演示进行探索的方式中，代理通过观察人类用户的操作来学习应用的复杂功能，这对于那些可能难以通过自主交互发现的功能尤其有效。在此方法中，代理记录人类使用的元素和动作，这种策略缩小了探索空间，并阻止代理与无关的应用页面进行交互，从而比自主交互更为高效和有条理。

^{AppAgent 通过观察 app 的操作响应来理解 UI 界面功能和操作逻辑，并整理成文档}

部署阶段

经过探索阶段的训练，AppAgent 已准备好执行基于其累积经验的复杂任务。在部署阶段，代理遵循逐步方法，每一步都包括获取当前用户界面的屏幕截图和一个动态生成的文档，详细描述了用户界面元素的功能和当前用户界面页面上动作的效果。代理首先对当前用户界面进行观察，然后阐述其关于任务和当前观察的思考过程。随后，代理通过调用可用函数执行动作。每次动作后，代理总结交互历史和当前步骤中采取的动作。这些信息被整合进下一个提示中，为代理提供了一种记忆形式。这种细致的方法提高了代理动作的可靠性和可解释性，从而促进了更明智的决策。部署阶段持续进行，直到代理确定任务已经完成，此时它可以通过执行退出（Exit）动作结束过程。

^{部署阶段，AppAgent 参考整理好的文档，不断的观察思考总结来完成复杂的任务。}

实验结论

AppAgent 通过一系列的量化和定性实验，证明了其在操控多样化智能手机应用方面的显著能力。该评估涉及了 10 种广泛使用的应用，覆盖了从社交媒体、地图导航到音乐播放和图片编辑等多个领域。通过特别针对 Adobe Lightroom 这一图像编辑应用的深入案例研究，AppAgent 的视觉处理能力得到了详尽的考察。

AppAgent 采用了先进的多模态大型语言模型 GPT-4 来处理交错的图像和文本输入，这种独特的能力使其能够无缝地解释和互动应用中的视觉及文本信息。实验结果表明，通过简化动作空间的设计，AppAgent 在准确性和效率上大幅度超越了原始的 GPT-4 模型。这主要是因为简化动作空间消除了对生成精确 xy 坐标的需求，这是传统语言模型的一个挑战点。在成功率、奖励和平均步骤数三个关键性能指标上，AppAgent 表现优异。即便在任务步骤上遇到失败，它也能根据其最终状态获得一定的奖励分数，这反映出其在理解和执行任务方面的适应性和韧性。特别是在多样化的应用中，AppAgent 通过有效地完成任务，展现了其出色的操作能力。

通过自主探索和观察人类演示生成的文档，AppAgent 的性能显著优于仅依赖原始 GPT-4 模型的基线。这些文档的有效性与人工编写的文档相媲美，凸显了设计在增强代理跨多样化应用表现的有效性。定性结果进一步证明了 AppAgent 在准确感知、推理和响应任务要求方面的能力。

在 Adobe Lightroom 的案例研究中，AppAgent 对具有不同视觉问题的图片进行编辑，展现了其处理视觉任务的高级能力。用户研究的结果显示，相较于 GPT-4 基线，AppAgent 在图像编辑质量上有了明显提升。尤其是在使用观察演示生成的文档时，AppAgent 倾向于使用更多工具来提升图像质量，而 GPT-4 基线通常使用较少的工具。

总而言之，AppAgent 在多项任务中展示了出色的性能和适应性。其创新的多模态框架和有效的探索策略，不仅验证了 AppAgent 的实用性，还为智能代理在理解和操作多样化智能手机应用方面的研究提供了宝贵的见解和基准。

^{用 AppAgent 操作 Lightroom 修图软件修图的例子}

总结

腾讯的 AppAgent 技术标志着智能代理领域的一个重大进步，不仅提升了多模态大型语言模型在实际应用中的能力，而且开辟了未来智能手机应用操作和交互的新境界。这项技术的核心优势在于其创新性和灵活性：通过模拟人类的互动方式，AppAgent 能够直接与应用的图形用户界面进行交互，从而摆脱了对传统后端接口的依赖。这不仅提高了操作的安全性和隐私性，而且使得智能体能够更加灵活地适应应用界面的变化和更新。

AppAgent 的多模态学习框架，结合自主探索和观察人类演示的方式，使其能够快速适应和掌握新应用，无论是处理复杂的图像编辑任务，还是导航复杂的社交媒体平台。这种学习方法的高效性和适应性，证明了 AppAgent 在理解和执行多样化任务方面的高级能力，同时也突显了其在未来应用开发和用户体验改善中的巨大潜力。

随着技术的不断进步和优化，我们可以期待 AppAgent 在多个领域中的应用，如提高工作效率、改善用户体验、辅助残障人士等。AppAgent 的成功不仅为智能代理技术的发展树立了新的里程碑，而且为我们如何与智能手机和其他智能设备互动提供了全新的视角。它不仅有望改变个人用户的日常生活，还可能对商业、教育和互联网等行业产生深远影响。

产业AppAgent

相关数据

广度优先搜索技术

广度优先搜索算法（英语：Breadth-First-Search，缩写为BFS），又译作宽度优先搜索，或横向优先搜索，是一种图形搜索算法。简单的说，BFS是从根节点开始，沿着树的宽度遍历树的节点。如果所有节点均被访问，则算法中止。广度优先搜索的实现一般采用open-closed表。

来源：维基百科

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

深度优先搜索技术

深度优先搜索算法是一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当节点v的所在边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。

来源：维基百科

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

智能代理技术

智能代理，或译为智能主体。在人工智能领域，智能代理是指一个可以观察周遭环境并作出行动以达致目标的自主实体。它通常是指一个软件程序。“智能代理”是目前人工智能研究的一个核心概念，统御和联系着各个子领域的研究。

来源：维基百科

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如，图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如，图像通常表示为特征提取器的像素强度或输出，而文本则表示为离散的词向量。由于不同信息资源的统计特性不同，发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型，可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中，每个模态对应结合了两个深度玻尔兹曼机（deep boltzmann machines）.另外一个隐藏层被放置在两个玻尔兹曼机上层，以给出联合表示。

来源：Wikipedia

知识库技术

知识库是用于知识管理的一种特殊的数据库，以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家，它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。

来源：维基百科

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

操作系统技术

操作系统（英语：operating system，缩写作 OS）是管理计算机硬件与软件资源的计算机程序，同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

来源：百度百科

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

腾讯机构

腾讯，1998年11月诞生于中国深圳，是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念，为亿万网民提供优质的互联网综合服务。腾讯的战略目标是“连接一切”，我们长期致力于社交平台与数字内容两大核心业务：一方面通过微信与QQ等社交平台，实现人与人、服务及设备的智慧连接；另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展，通过普及移动支付等技术能力，为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/