OpenAI 的 ChatGPT 开始与电脑上的其他应用程序协同工作。本周四,这家初创公司宣布,MacOS 版 ChatGPT 桌面应用程序现在可以读取 VS Code、Xcode、TextEdit、Terminal 和 iTerm2 等一些以开发者为中心的编程应用程序中的代码。
这意味着开发人员不必再复制和粘贴他们的代码到 ChatGPT 中,而这已成为使用聊天机器人的一种常见方式。 现在,当启用该功能时,OpenAI 会自动通过聊天机器人发送正在处理的代码部分,作为上下文,同时还有提示。
不过,与 Cursor 或 GitHub Copilot 等流行的人工智能编程工具不同,ChatGPT 目前还不能代表开发者将代码直接写入开发者应用。
这项名为”与应用程序合作”(Work with Apps)的功能远非人工智能代理,但 OpenAI 表示,让 ChatGPT 理解其他应用程序是构建代理系统的”关键基石”。 目前,人工智能代理面临的最大挑战之一是让它们理解电脑屏幕上的其他内容,而不是提示或它们自己的反应。
OpenAI 表示,该功能一开始将重点放在编程应用程序上;这很可能是因为人工智能编程助手已经成为最受欢迎的用例之一。 今天,Plus 和 Teams 用户可以使用该功能,在接下来的几周内,该功能将推广到 Enterprise 和 Edu。 OpenAI 表示,ChatGPT 将能够与其他类型的应用程序协同工作,特别是可以用于写作任务的基于文本的应用程序。
现在可以为ChatGPT选择几个编程应用程序(图片:OpenAI)
OpenAI 桌面产品负责人 Alexander Embiricos 表示,为了阅读不同的应用程序,OpenAI 主要依靠 MacOS Accessibility API 来阅读文本并将其翻译为 ChatGPT。 MacOS 的屏幕阅读器可帮助苹果的 VoiceOver 功能工作,该功能已存在近二十年。 人们普遍认为它在大多数常见应用中都相当可靠,但并非所有应用都是如此。
对于某些应用程序,例如微软的 VS Code,Work with Apps 要求用户安装一个特殊的扩展来查询内容。 而且,顾名思义,苹果的屏幕阅读器只能阅读文本,因此无法帮助 ChatGPT 理解视觉元素,如照片、对象的方向或视频。
在某些应用程序中,每次提示时都会通过 ChatGPT 发送最后 200 行代码。 对于其他应用,您最重要窗口中的所有代码都将作为聊天机器人的输入。 你可以高亮显示代码或文本的部分,帮助 ChatGPT 专注于项目的正确部分,但 ChatGPT 也会包含周围的文本。 这听起来似乎会用到很多输入标记。
调用Xcode 的 Chatgpt(图片:OpenAI)
目前还不清楚 OpenAI 计划如何将这一功能扩展到其他不兼容苹果屏幕阅读器的应用程序。 Anthropic 是 OpenAI 的竞争对手之一,它发布了一个人工智能系统,通过分析用户的桌面截图来理解和使用其他应用程序。 坦率地说,Anthropic 的方法在目前的状态下还有很多不足之处:速度慢,错误多。 不过,它是一个更通用的人工智能代理,不依赖于应用程序接口,能做的不仅仅是读取另一个窗口中的文本。
Embiricos 介绍说:”这并不是要成为一个代理,它只是一种与编程工具协作的方式,很快就会有更多的工具出现。在代理方面,我认为这是一个非常关键的组成部分。 ChatGPT能够理解或处理你所拥有的所有内容,从而帮助你处理这些内容。”
根据彭博社最近的报道,OpenAI 即将发布一款代号为”Operator”的通用人工智能代理,因此向代理迈出的这一步尤其值得注意。 该工具预计将于 2025 年初面世,可与其他早期尝试的通用人工智能代理相媲美,如 Anthropic 的 Computer use 或Google报道的”Jarvis”代理。
OpenAI 将首先在 MacOS 上发布这些功能,就在苹果于 12 月推出与 ChatGPT 的集成前不久。 目前还不清楚”Work with Apps”何时会登陆 Windows,因为 Windows 是由 OpenAI 最大的支持者微软创建的操作系统。
暂无评论内容