• 3 月 13 日,创业公司 Cognition 宣布推出 AI 软件工程师 Devin,它在 SWE-bench 编码基准测试中超越顶尖人类工程师,标志着软件开发的重大转变。
  • Devin 展示了独立完成各种软件工程任务的能力,从调试到部署,并利用自己的一套开发工具。
  • Cognition 的创始团队由在计算机科学和数学领域有着杰出背景的天才组成,旨在通过用 AI 取代人类软件工程师来彻底改变该领域,这在科技界引发了乐观与担忧。

我们的看法
目前,Cognition 已获得由硅谷大亨彼得·蒂尔的创始人基金等知名投资机构领投的 2100 万美元投资,表明 Devin 将加速更新。随着谷歌和 OpenAI 等科技巨头也进入该领域,“AI 程序员”领域的竞争将更加激烈。

—— Chloe CHEN,BTW 媒体记者

3 月 13 日,创业公司Cognition宣布推出全球首个 AI 软件工程师 Devin,声称它将彻底改变人类构建软件的方式。Devin 在 SWE-bench 编码基准测试中取得了突破性成功,展示了其执行复杂任务的能力,甚至超越了顶尖人类工程师。这一发布引起了开发者的广泛关注。

相关阅读:Sora 不会取代人类,原因在此

相关阅读:谷歌暂停 Gemini AI 模型的图像生成功能

Cognition,一个仅 10 人的小创业公司

据了解,Devin 背后的 Cognition 是一家仅 10 人的小创业公司,成立不到两个月。目前,它在 SWE-bench 上取得了惊人的 13.86%的成绩,相比之下,Claude 2 为 4.80%,而SWE-Llama-13bGPT-4分别只能达到 3.97%和 1.74%。

在 Cognition 的演示中,Devin 可以快速完成程序员日常的基础工作,如开发、调试和部署。此外,它拥有自己的 shell、代码编辑器和浏览器以及其他常用开发工具,全部集成在一个沙箱计算环境中,使得 Devin 可以独立调用它们。

面对用户用自然语言描述的需求,Devin 可以打开代码编辑器,使用浏览器进行调试,然后运行和检查代码,最后部署以满足用户需求。这些任务传统上由程序员完成,但现在 AI 可以接管。

开发者展示了一个例子,Devin 独立解决了sympy Python 代数系统中的对数计算错误。我们可以看到 Devin 设置代码环境,重现错误,并独立编码测试修复方案。

此外,对于众所周知的将 AI 生成的艺术隐藏在背景图像中的挑战,传统上需要软件工程师花时间理解和学习新工具,Devin 通过阅读博客、在 Modal 上运行ControlNet,成功学会了这项全新的陌生技术并满足了需求。

更进一步,Devin 可以独立完成最热门的大模型技术。例如,它只需要你发送一个 GitHub 研究仓库的链接,就能自主微调大语言模型。甚至,对于Upwork上的真实工作任务,它也可以为计算机视觉模型编写和调试代码。Devin 会为用户生成包含样本数据结果的报告。

Devin 是下一代软件开发助手

我们看到 Cognition 将 Devin 描述为下一代软件开发助手,不仅提供编码建议和自动化一些任务,而且能够独立完成整个软件项目。这意味着 Devin 与其他 AI 编程工具不同,它具有更大的自主性和更全面的编程能力。

尽管在 Devin 发布时,Cognition 似乎是一家小公司,甚至没有固定办公室,但看看它的创始团队,我们会看到另一个天才创业的故事。

Devin 背后的天才团队

Cognition 的创始人兼 CEOScott Wu,14 年前参加过一次电视直播的数据竞赛,在比赛中他展示了数学天赋,力压群雄。

联合创始人兼 CTOSteven Hao,毕业于 MIT 计算机科学专业,曾在数据标注独角兽 Scale AI 担任顶级工程师。

另一位联合创始人兼首席产品官 Walden Yan,在哈佛大学学习计算机科学和经济学,参与过 MIT PRIMES 的密码学和机器学习研究,并曾入围沃顿商学院北美高中生投资竞赛决赛。

此外,我们发现一个令人惊讶的巧合:Cognition 的创始人都是国际信息学奥林匹克竞赛(IOI)的金牌得主。IOI 是一项面向各国个人参赛者的年度国际信息学竞赛,每个国家最多派出四名选手。

说 Cognition 的创始团队是一支在竞争激烈的美国计算机科学领域脱颖而出并赢得金牌的“天才团队”,似乎并不夸张。

人类软件工程师会被取代吗?

然而,一些人对 Devin 或类似工具的出现持悲观态度,认为软件工程师 Scott Wu 正在推出一种生成式人工智能工具,其最终目标是取代人类软件工程师。计算机科学家Silas Alberti表示,“这看起来不像是一个编写代码的助手,更像是一个真正的工人在做自己的工作。”

前特斯拉 AI 总监卡帕西表示,“目前自动化软件工程看起来类似于自动化驾驶。”

这反映在开发过程中:首先,人类手动编写代码;然后,GitHub Copilot 自动完成几行;接着,ChatGPT 编写代码块;现在,Devin 出现了。

他认为,软件工程自动化将演变成许多工具,开发人员需要结合使用这些工具来编写代码:终端、浏览器、代码编辑器等,而人类负责监督,逐渐转向更高级的工作。