简介
2026年2月5日,OpenAI宣布推出 GPT-5.3-Codex,这是迄今为止最先进的 agentic 编码模型。此次发布标志着人工智能领域的一个重要里程碑——不仅因为它具有令人印象深刻的技术能力,还因为它是有史以来第一个在创建自身过程中发挥重要作用的模型。
代表着从代码编写工具到交互式 AI 协作工具的根本转变,它能够处理跨越整个专业计算任务范围的长期、真实的科技工作。
的与众不同之处?
真正的 Agentic 模型
与仅生成代码片段的传统编码助手不同, 被设计为 “agentic” 模型。这意味着它可以:
自我构建的成就
也许 最引人注目的方面是 Codex 团队使用该模型的早期版本来:
这种自我参照的开发周期展示了人工智能如何开始加速其自身的改进——OpenAI 研究人员称这一里程碑让他们 “震惊于 Codex 加速自身发展的程度”。
性能提升
由于 OpenAI 在基础设施和推理堆栈方面的改进,快 25% 比其前身 (快 25%) 快 25%。这种速度提升可以实现更灵敏的实时协作和更快的迭代周期。
基准性能:数据
在衡量编码、agentic 能力和真实计算机使用的几个关键基准测试中实现了最先进的性能。
SWE-Bench Pro
SWE-Bench Pro 是对真实软件工程的严格评估,涵盖四种编程语言(Python、JavaScript、TypeScript 和 Go)。与仅测试 Python 的前身 (SWE-Bench Verified) 不同,SWE-Bench Pro 旨在具有更强的抗污染能力和行业相关性。
Terminal-Bench 2.0
在 Terminal-Bench 2.0 上的 GPT-5.3-Codex 尤其重要。此基准测试衡量编码代理所需的终端技能——导航文件系统、执行命令和管理开发工作流程。值得注意的是,GPT-5.3-Codex 以比任何先前模型更少的 tokens 完成此操作,从而使其效率更高。
OSWorld-Verified
在 OSWorld-Verified 上的 GPT-5.3-Codex 表明计算机使用能力显着提高。OSWorld 是一种 agentic 计算机使用基准,代理必须在可视化桌面环境中完成生产力任务。这一巨大改进表明,GPT-5.3-Codex 在导航真实世界界面方面比以前的模型好得多。
超越代码:通用代理
虽然 在编程方面表现出色,但其功能远不止代码生成。OpenAI 将其定位为可以处理 “开发人员和专业人员在计算机上几乎可以做的任何事情” 的代理。
软件生命周期支持
该模型旨在支持整个软件开发生命周期:
知识工作能力
在 GPT-5.2 (OpenAI 的 2025 年评估,衡量 44 个职业的知识工作任务的绩效) 上,GPT-5.2 与 GPT-5.2 的表现相匹配。这包括以下任务:
Web 开发示例
为了展示该模型的功能,OpenAI 要求 从头开始构建两个完整的游戏:
- 赛车游戏 (Codex 应用程序启动游戏的版本 2)
仅使用 “开发 Web 游戏” 技能和通用的后续提示 (如 “修复错误” 或 “改进游戏”), 自主迭代了数百万个 tokens,构建了高度实用、精美的游戏。
更好的意图理解
与 相比,新模型在构建网站时能更好地理解用户意图。简单或未明确指定的提示现在默认为具有以下功能的网站:
例如,当被要求构建一个定价着陆页时, 自动将年度计划显示为打折的每月价格(使折扣清晰可见),并创建了一个带有三个不同用户引用的自动过渡的证明轮播——从而产生了一个更完整和精致的设计。
互动协作
最重要的用户体验改进之一是能够在 模型工作时进行指导。
实时互动
用户现在可以不用等待最终输出,而是:
设置 > 常规 > 后续行为 会说明它在做什么,响应反馈,并使用户从头到尾都参与其中。这可以在 Codex 应用程序中通过 设置 > 常规 > 后续行为 启用。
这会将体验从向机器发出命令转变为与团队成员协作——这是人类与 AI 系统交互方式的根本转变。
网络安全能力和安全
第一个被归类为 “高能力” 的网络安全相关任务的模型 是 OpenAI 根据其准备框架 第一个被归类为 “高能力” 的网络安全相关任务的模型。它也是第一个经过直接训练以识别软件漏洞的模型。
双重用途性质
由于网络安全本质上是双重用途的(对防御和进攻都有用),OpenAI 正在采取预防措施:
网络安全的受信任访问
OpenAI 正在启动 网络安全的受信任访问,这是一个试点计划,旨在:
1000 万美元的承诺
在 2023 年 100 万美元的网络安全赠款计划的基础上,OpenAI 承诺 提供 1000 万美元的 API 信用额度,以加速网络防御,特别是对于:
Aardvark 安全代理
OpenAI 正在扩展 Aardvark(其安全研究代理)的私有 Beta 版,作为其 Codex 安全产品和工具套件中的第一个产品。他们还与开源维护人员合作,为 Next.js 等广泛使用的项目提供免费的代码库扫描。
OpenAI 如何使用 Codex 构建 Codex
的开发提供了一个关于 AI 加速研究的引人入胜的案例研究。
研究团队用例
研究团队使用早期版本的 来:
工程团队用例
工程团队使用 Codex 来:
- 优化和调整 <a2>GPT-5.3-Codex 的 harness</a2>
数据科学用例
在 Alpha 测试期间,一位数据科学家与 合作:
- 构建正则表达式分类器以估计澄清、用户响应和任务进度的频率
- 构建新的数据管道并以比标准仪表板工具更丰富的方式可视化结果
- 共同分析结果,Codex 在不到三分钟的时间内总结了数千个数据点的关键见解
生产力提升
结果是?使用 Codex 构建的人员更快乐,因为代理:
可用性和定价
如何访问
对于所有 Codex 界面上的付费 ChatGPT 用户,立即可用 立即可用:
- IDE 扩展 (VS Code、JetBrains 等)
订阅计划
在有限的时间内,付费计划将获得 双倍的正常速率限制。
API 定价
截至发布之日,OpenAI 尚未发布 <a2>GPT-5.3-Codex 的官方 API 定价</a2>。API 访问被描述为 “即将推出” 和 “在接下来的几周内推出”。
作为参考,先前模型 () 的当前 API 定价为:
基础设施
NVIDIA GB200 NVL72 系统 是与 NVIDIA GB200 NVL72 系统 共同设计、训练和提供的——这证明了 OpenAI 和 NVIDIA 在推动 AI 能力边界方面的密切合作。
与竞争对手的比较
Claude Opus 4.6 的发布仅在 Anthropic 宣布 Claude Opus 4.6 之后几分钟,从而立即建立了这两个模型之间的比较。
的优势
- Terminal-Bench 2.0: 77.3 vs Opus 4.6 的 65.4 (+18.6% 的优势)
的优势
- 100 万个 tokens 上下文窗口(显着更大)
设计理念差异
更大的图景
通用代理迈出的变革性一步,这些代理可以在整个实际技术工作领域进行推理、构建和执行 不仅仅代表着渐进式的升级,它还是朝着 通用代理迈出的变革性一步,这些代理可以在整个实际技术工作领域进行推理、构建和执行。
从代码代理到计算机代理
OpenAI 明确地构建了这种演变:“Codex 正在超越编写代码,将其用作操作计算机和端到端完成工作的工具。”
这是一个深刻的转变。最初专注于成为 “最好的编码代理” 已经成为计算机上更通用的协作者的基础——扩大了可以构建的人员以及 AI 可以实现的功能。
加速 AI 开发
帮助构建自身的事实预示着未来的发展。正如 OpenAI 研究人员指出的那样,“OpenAI 的许多研究人员和工程师表示,他们今天的工作与两个月前的工作从根本上不同。”
这表明我们正在进入 AI 开发的 加速回报时期,每一代模型都有助于构建下一代模型——可能会将时间表从几年压缩到几个月。
对开发人员的影响
对于软件开发人员来说,影响是巨大的:
- 互动协作 - 不太像使用工具,更像是与团队成员一起工作
对企业的影响
对于企业而言, 代表:
- 新的安全注意事项 - “高能力” 网络安全分类需要谨慎治理
- 竞争优势 - 尽早采用强大的 agentic AI
结论
是人工智能领域的一项具有里程碑意义的成就。它结合了:
它在自身创建过程中发挥了重要作用,既是一项技术成就,也是 AI 发展方向的隐喻。随着模型变得越来越强大,它们不仅仅是我们使用的工具——它们正在成为创意和开发过程本身的合作伙伴。
与 同步发布 (仅相隔几分钟) 突显了 AI 领域的激烈竞争。但更重要的是,它表明我们已经进入了 AI 能力的新阶段——在这个阶段,代理可以可靠地处理跨越整个专业计算机工作范围的复杂、长期任务。
正如 OpenAI 所说:“最初专注于成为最好的编码代理已成为计算机上更通用的协作者的基础。”
现在的问题不仅仅是这些模型能做什么——而是我们将选择用它们构建什么。
来源
免责声明: 本文基于截至 2026 年 2 月 6 日的信息。规格、定价和可用性可能会发生变化。有关最新信息,请参阅官方 OpenAI 文档。