Claude 接管人类电脑编程:程序员沸腾、OpenAI 反击,智能体大战一触即发
AI 接管人类电脑,未来已来!Claude 自主操控电脑,从编程到科研无所不能,代表着万能 API。另一边,OpenAI 内部加急研发多智能体 AI,已经有了雏形。
AI 像人一样操作电脑,已然成为下一个前沿。两天前,Anthropic 进化版 Claude 3.5 Sonnet 首次实现自主操控电脑屏幕、移动光标、完成任务,惊艳了所有人。
当时,Anthropic 开发者关系负责人称,「『计算机使用』是万能的 API,它代表着全新人机交互范式的第一步」。
拿到测试资格的网友们,疯狂体验了这项「超能力」。甚至,就连初创公司 CEO 对此赞不绝口,AI 智能体已经来临,你现在可以建立 AI 军队为你工作。
在 Anthropic 加速布局智能体未来同时,OpenAI 似乎也感受到了紧迫感。外媒最新爆料称,OpenAI 内部正开发新品来自动化复杂的软件编程任务。
恰在昨天,OpenAI 研究科学家、德扑之父在 TED 活动中表示,「自己对构建 o1 失去信心,正在 OpenAI 组建多智能体团队」。
这意味着,一场全新的竞赛即将开始,AI 不再仅仅是对话生成,而应该去执行和操作。
Claude 接管人类电脑,科研求职编码一键通
那些上手 Claude 计算机使用能力的开发者们,根本停不下来创作。从复杂的编码任务到深入研究,再到收集 「零散」的信息,许多令人惊叹的典型案例诞生了。
毕竟是自家首发的,Anthropic 开发者关系负责人 Alex Albert 先了打个样。
他先用 Claude 计算机和 bash 工具,在线下载一个随机数据集,然后安装 sklearn,在数据集上训练一个简单的分类器。
最后,在网页上就得到了分类器结果。
这些过程,不到 5 分钟的时间就完成了。
其中用到的提示,他也贡献出来了:
Go to https://data.gov, find an interesting recent dataset, and download it. Install sklearn with bash tool write a .py file to split the data into train and test and make a classifier for it. (you may need to inspect the data and/or iterate if this goes poorly at first, but don't get discouraged!). Come up with some way to visualize the results of your classifier in the browser.
一位开发者已经开始让 Claude 帮自己自主做科研了。
验证「你是不是人」,Claude 可以代劳了。
想要 Claude 控制你的电脑,只需要:
pip install open-interpreterinterpreter --os
Claude 一顿操作猛如虎,以后视频内置广告,通通交给它了。
打工人求职申请表填写,Claude 也能胜任。这不,下面这位开发者小哥已经让 AI 自动申请 Anthropic 职位了。
进化版(左)和旧版(右)Claude 3.5 Sonnet 在「我的世界」中构建的样子,令人印象深刻。
新升级后的 Claude 3.5 Sonnet 将如何影响「多智能体社会」的进步?
智能体研究初创公司 Altera Al 给出了答案,新模型是对长时间自主性的最大升级。我们的 25 个智能体在「我的世界」中合作,在 20 分钟内收集了超过 40% 的不同物品。
分析工具
顺便提一句,Claude 今天还重磅推出了可以编写和运行代码「分析工具」,为 1024 开发者们送上大福利。
目前,这一功能已在 Claude 中上线。
假设让 Claude 绘制销售渠道进展的直观图,它能自主分析数据写代码,并给出要求的可视化图。
然后,你可以在 Artifacts 中,可以详细查看细分项的数据。
AI 智能体竞赛打响,Anthropic 抢跑
虽然计算机使用工具并不完美,但它代表了 Anthropic 在 AI 中的一种愿景:
让 Claude 像人一样,看懂屏幕自主操作现有软件,完成各种复杂的任务。
这项能力背后的工作原理是:Claude 先对屏幕截图,确定需要采取的行动,然后执行这些行行动。然后,再次截图决定下一步应该做什么。
畅想一下,如果智能体能够直接查看屏幕内容而无需依赖辅助功能,或查看底层代码的 AI 软件,可能会开启大量新机遇。
比如,当你搭建网站时,如果按钮中的文字意外超出按钮边界,AI 智能直接看到后修复了这个问题,就省去了查看底层代码倒推步骤。
再举个栗子,当前网站制作者,已经非常巧妙地隐藏网站上广告的 HTML 代码。
这使得基于 AI 的广告拦截软件更难分析代码,并确定需要删除什么来去除广告。
但是,能够直接看到广告本身的「计算机使用智能体」会发现这项任务容易得多。
不过,这项技术带来弊端首先是「截图操作」成本太高,而且 AI 往往会假设它的操作已经成功执行。
「当它获取新的截图时,它已经不知道自己在操作流程中处于哪个阶段了」
另一方面,就是隐私问题了。
此前,已经有公司禁止员工使用 ChatGPT、GitHub Copilot 等编程工具,害怕不小心向模型开发商泄露专有信息或代码。
OpenAI 急了,加码 AI 年底上新
在劲敌 Anthropic 连连发布重压下,OpenAI 其实早已开启了新的布局。
还记得几天前,Sam Altman 突然冒泡,「下个月是 ChatGPT 的第二个生日,我们应该送它什么生日礼物呢」?
当时,一大波网友写下自己的愿望清单。
就在刚刚,有一条被传疯了的报道称,OpenAI 计划在 12 月,解禁新一代大模型,代号为 Orion。
根据爆料,Orion 将使用 o1 合成的数据进行训练,并会在 ChatGPT 两周年前后发布。
但与 GPT-4o 和 o1 不同的是,它最初不会通过 ChatGPT 上线,而是先授予与 OpenAI 密切合作的公司访问权限(比如微软),方便他们构建自己的产品和功能。
不过,网友们的「美梦」还没做多久,Altman 就站出来辟谣了:通通都是 fake news!
在软件开发上,OpenAI 目前正在开发多个产品和功能:
一部分简化在 Microsoft Visual Studio Code 等主流代码编辑器中使用 OpenAI 的 AI 进行开发的流程;
另一部分则着眼于处理更复杂的软件开发任务。
知情人士透露,OpenAI 这款产品能够处理原本需要人类耗时数小时乃至数天的软件工程任务,还能据客户的指令自动编写和执行复杂应用程序的代码。
不过,具体发布时间还未确定。
毕竟,代码开发是 OpenAI 大语言模型的早期应用场景之一,主要是因为 AI 生成的代码可以快速验证其可用性。
2021 年开始,微软 GitHub 团队利用 OpenAI 大模型推出 AI Copilot,为程序员提供实时代码建议。
紧接着,ChatGPT 在 22 年年底面世,提供一个更加易用、免费的替代方案,迅速走红。
随后,OpenAI 成功说服数百万程序员付费使用「升级版」ChatGPT。
他们可以比 GitHub Copilot 更早体验升级版 LLM,并能通过对话式指令处理各类开发任务。正因此,报道称这些功能让 OpenAI 相关订阅产品的年收入有望达到约 30 亿美金。
在智能体布局方面,OpenAI 内部正组建一支多智能体团队,下一步可能倾向于智能体领域。
前段时间,他们发布的多智能体框架 Swarm,也是引发了 AI 社区的关注。
内部研究助手
据透露,OpenAI 已经开发出了一款能够帮助提升工作效率的「内部研究助手」,并且获得了研究人员的一致好评。
其中的功能,就包括为 AI 模型相关的实验生成代码。
这款内部工具似乎是朝着开发能够自主进行 AI 研究的系统迈出的一步 —— 这种能力不但需要编程技能,而且还需要具备为新实验提出想法和脑洞等能力。
OpenAI 的领导层已公开表示,这一目标可能会在未来几年内实现。
另外,知情人士透露,OpenAI 正在考虑开发升级版 Canvas,这是一款对标 Anthropic Artifacts 的工具。
它能够实现和 ChatGPT 对话同时,在新的画布中协作,不论是编程还是创作,皆可互动。
就代码方面,在 Canvas 中用户能够让 AI 一键审查代码、修改 bug 等,帮助理解现有的代码基础和项目类型。
不过,他们还需要进行将代码复制粘贴到 chatbot 中,这一繁琐操作。
OpenAI 所希望的是,能够推出更通用的 AI 智能体,类似于 Anthropic 发布「计算机使用智能体」,可以接管人类电脑处理代码以外更广泛的任务。
目前,OpenAI 已在内部展示了一个 AI 智能体的初步版本,能够通过用户的计算机完成在线订餐等任务。
其实,Claude 已经实现了在线点餐的能力当遇到编程或应用开发难题时,这个 AI 智能体还能够自动查询网络资源寻求解决方案。如今在 AI 编程领域,OpenAI 已处于守势,曾经独占鳌头的局势正在改变。
现在,面对这个最危险的竞争对手 Anthropic,它确实该做点什么了...
参考资料:
https://x.com/JeremyDanielFox/status/1849471327075270707
https://x.com/AnthropicAI/status/1849466471556038752
https://venturebeat.com/ai/anthropics-agentic-computer-use-is-giving-people-superpowers/
https://www.theverge.com/2024/10/24/24278999/openai-plans-orion-ai-model-release-december
https://www.thariq.io/blog/claudecomputer/
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。