2024/03/13 14:47

首个AI软件工程师上线！已通过公司面试抢程序员饭碗，华人创始团队手握10块IOI金牌

前段时间，英伟达 CEO 黄院士发出惊人言论：「都别学编程了，以后交给 AI 就行了，以后人人都是软件工程师。」当时还有很多人反对，说「AI 永远不会取代程序员。」没想到，首个人工智能软件工程师 Devin 一发布，程序员的饭碗可能真要被 AI 端走了。

在 SWE-Bench 基础测试中，无需人类协助，Devin 就可以解决 13.86% 的问题。而目前的 SOTA 模型，在没有人类帮忙的情况下，只能完成 1.96% 的任务。

仅从评测结果看，Devin 解决真实世界软件问题的能力要远好于当前的 GPT-4 和 Claude 等模型。

官方发的推特说，Devin 不仅通过了一家业内领先的人工智能公司的面试，在自由职业平台 Upwork 上也能成功接单，完成单主要求的工作。也就是说，Devin 不仅是横扫基础测试的「做题家」，在就业市场里也有人为它的工作能力买账。

难道继 Sora 让「现实世界」不存在了之后，Devin 也要让「软件工程」不存在了吗？

Devin 现在还未对外开放，但已经有开发人员和产品人员用上了。测试过的网友表示，以前一直用人工智能辅助编码，但一直失败。直到昨天，他给 Devin 了一个简单的 HTML 页面，让它提取选择器，这个 GPT-4-turbo 、Claude、Groq 、LLama2 都没完成的任务，Devin 只用了大约 10 秒就搞定了。

^{源自 https://news.ycombinator.com/item?id=39679787}

Devin 的评论区的画风，也是哀嚎一片：

当然，对这种说法，也有网友并不买账，认为这是夸大宣传。

所以，这位来抢程序员「饭碗」的 AI 软件工程师的本事到底有多大呢？

首位 AI 软件工程师

真要抢程序员饭碗？

要知道，虽然现在市面上的一系列大模型都有编程能力，但大多数都采用了单行代码补全或者单个函数生成的方式。想生成完整的程序，还需要设计 prompt 逐步「调教」。

而对 Devin 来说，你只需要向它提要求，坐等其成就可以了。

Devin 配备了包括 shell、代码编辑器和浏览器在内的常见开发工具，这些都在一个沙盒化的计算环境中 —— 这些都是人类软件工程师完成工作所需的一切。

根据自然语言提示自动写代码、生成完整的程序并上线只是 Devin 的基操，它可以自动规划并执行需要数千个决策的复杂任务。

例如请它在几个不同的 API 上对 Llama 的表现进行基础测试，它首先制定了一个逐步解决问题的计划：

在完成项目的过程中，它使用了浏览器为 API 留档，以便它可以阅读并学习如何插入这些 API：

遇到意外的错误时，Devin 决定先「print」出来，再根据日志中的错误决定如何修复 bug：

最后，它为你构建了一个完整的可视化网站：

Devin 能自动完成如此复杂的规划，得益于其背后的 Cognition AI 在长期推理和规划方面的进展，这使它能够在每一步回忆相关的上下文，随时间学习，并修复错误。

Devin 拥有积极的协作的能力，它能实时报告进度，接受反馈，并根据需要调整，还能适应成熟的代码库，修改前辈留下的 bug：

自主学习，从完全陌生的知识学习使用不熟悉的技术，也是 Devin 所擅长的。

你给它一篇新博客，讲的是如何运行 ControlNet on Modal，生成带文字的图像：

它不仅能迅速从中学会所需的代码，没过两秒，工作就自动帮你完成了：

在 Upwork 接的单里，Devin 被要求编写并调试运行计算机视觉模型的代码。它采样了结果数据，最后呈现了一份报告：

Devin 甚至能够训练和微调自己的 AI 模型，看来 AI 的生命快要在此刻完成闭环了。仅通过一个 GitHub 仓库的链接，Devin 就微调了一个大型语言模型：

总体来看，与其他具有编程能力的大模型，Devin 不仅辅助编程或提供代码片段，它能够独立支持一整个项目，而不仅仅是辅助或提供代码片段的建议。相比于「副驾驶」的角色，Devin 更接近于一个独立工作者。而 Cognition AI 声称 Devin 实现了在 AI 领域被称为「理解」的突破，这意味着它能够不仅是在预测下一个单词或代码行应该输出什么，而是更像在思考如何解决问题的总体方法。

而 Devin 的技术路径，CognitionAI 并还未公开，只是简要地提到，Cognition AI 的团队发现了将大型语言模型（LLM）如 OpenAI 的 GPT-4 与强化学习技术结合的独特方法。这种方法可能是他们技术突破的关键点。

看到 Devin 的 Demo 后，刚从 OpenAI 离职的 AI 大牛 Andrej Karpathy 发表了一些独到的见解。在他看来，自动化软件工程的发展将类似于自动化驾驶，是一个人工智能做的越来越多，而人类的工作越来越少，但仍提供监督的过程。

Devin 可能是通向未来，人类在更高层级进行抽象监督的过程中一环，在这个过程中仍有很多问题需要解决。例如，人工智能部分以及用户界面 / 用户体验部分都有很多工作要做。人类如何提供监督他们如何引导人工智能走向不同的路径？他们如何调试出错的地方？代码编辑器的设计有可能需要大幅改变。

CognitionAI 简介

整个 Cognition AI 团队由 10 人组成，包括获得过 10 枚国际比赛金牌的运动编码者。

不少网友感叹，这太疯狂了。

这支团队的成员在编程竞赛中获得的成就和对问题解决的独特方法。其中三位创始人信息如下：

^{从左到右分别为 Steven Hao、Scott Wu、Walden Yan，图源：https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant}

Scott Wu - 首席执行官 (CEO)：Scott 是团队的领导者，和他的兄弟 Neal Wu 一起，自青少年时期就开始参加并经常获胜于国际编程比赛，曾连续三年揽获 IOI 金牌，这些比赛提升了他们的编程能力。Scott 的背景和对算法问题的深入理解为 Cognition AI 的开发提供了独特的视角。