简介

2026年2月5日，OpenAI宣布推出 GPT-5.3-Codex，这是迄今为止最先进的 agentic 编码模型。此次发布标志着人工智能领域的一个重要里程碑——不仅因为它具有令人印象深刻的技术能力，还因为它是有史以来第一个在创建自身过程中发挥重要作用的模型。

代表着从代码编写工具到交互式 AI 协作工具的根本转变，它能够处理跨越整个专业计算任务范围的长期、真实的科技工作。

的与众不同之处？

真正的 Agentic 模型

与仅生成代码片段的传统编码助手不同，被设计为 “agentic” 模型。这意味着它可以：

维护上下文，处理跨越数小时甚至数天的长期任务

自主使用工具，包括命令行界面、文件系统和开发环境

基于实时反馈进行调整和迭代，而不会迷失方向

处理需要研究、计划和执行的复杂多步骤工作流程

自我构建的成就

也许最引人注目的方面是 Codex 团队使用该模型的早期版本来：

调试其自身的训练过程

管理其自身的部署

诊断测试结果和评估

优化基础设施以进行最终发布

这种自我参照的开发周期展示了人工智能如何开始加速其自身的改进——OpenAI 研究人员称这一里程碑让他们 “震惊于 Codex 加速自身发展的程度”。

性能提升

由于 OpenAI 在基础设施和推理堆栈方面的改进，快 25% 比其前身 (快 25%) 快 25%。这种速度提升可以实现更灵敏的实时协作和更快的迭代周期。

基准性能：数据

在衡量编码、agentic 能力和真实计算机使用的几个关键基准测试中实现了最先进的性能。

SWE-Bench Pro

SWE-Bench Pro 是对真实软件工程的严格评估，涵盖四种编程语言（Python、JavaScript、TypeScript 和 Go）。与仅测试 Python 的前身 (SWE-Bench Verified) 不同，SWE-Bench Pro 旨在具有更强的抗污染能力和行业相关性。

Terminal-Bench 2.0

在 Terminal-Bench 2.0 上的 GPT-5.3-Codex 尤其重要。此基准测试衡量编码代理所需的终端技能——导航文件系统、执行命令和管理开发工作流程。值得注意的是，GPT-5.3-Codex 以比任何先前模型更少的 tokens 完成此操作，从而使其效率更高。

OSWorld-Verified

在 OSWorld-Verified 上的 GPT-5.3-Codex 表明计算机使用能力显着提高。OSWorld 是一种 agentic 计算机使用基准，代理必须在可视化桌面环境中完成生产力任务。这一巨大改进表明，GPT-5.3-Codex 在导航真实世界界面方面比以前的模型好得多。

超越代码：通用代理

虽然在编程方面表现出色，但其功能远不止代码生成。OpenAI 将其定位为可以处理 “开发人员和专业人员在计算机上几乎可以做的任何事情” 的代理。

软件生命周期支持

该模型旨在支持整个软件开发生命周期：

调试 - 识别和修复错误

部署 - 管理版本和基础设施

监控 - 跟踪性能和指标

编写 PRD - 产品需求文档

编辑文案 - 文档和营销文本

用户研究 - 分析用户反馈

测试 - 编写和运行测试套件

指标分析 - 数据驱动的决策

知识工作能力

在 GPT-5.2 (OpenAI 的 2025 年评估，衡量 44 个职业的知识工作任务的绩效) 上，GPT-5.2 与 GPT-5.2 的表现相匹配。这包括以下任务：

创建幻灯片和演示文稿

分析电子表格中的数据

文档管理和组织

研究与综合

Web 开发示例

为了展示该模型的功能，OpenAI 要求从头开始构建两个完整的游戏：

赛车游戏 (Codex 应用程序启动游戏的版本 2)

潜水游戏

仅使用 “开发 Web 游戏” 技能和通用的后续提示 (如 “修复错误” 或 “改进游戏”)，自主迭代了数百万个 tokens，构建了高度实用、精美的游戏。

更好的意图理解

与相比，新模型在构建网站时能更好地理解用户意图。简单或未明确指定的提示现在默认为具有以下功能的网站：

更多功能

合理的默认值

可用于生产的功能

例如，当被要求构建一个定价着陆页时，自动将年度计划显示为打折的每月价格（使折扣清晰可见），并创建了一个带有三个不同用户引用的自动过渡的证明轮播——从而产生了一个更完整和精致的设计。

互动协作

最重要的用户体验改进之一是能够在 模型工作时进行指导。

实时互动

用户现在可以不用等待最终输出，而是：

在执行过程中提出问题

讨论不同的方法

引导到特定的解决方案

在任务中期提供反馈

设置 > 常规 > 后续行为 会说明它在做什么，响应反馈，并使用户从头到尾都参与其中。这可以在 Codex 应用程序中通过 设置 > 常规 > 后续行为 启用。

这会将体验从向机器发出命令转变为与团队成员协作——这是人类与 AI 系统交互方式的根本转变。

网络安全能力和安全

第一个被归类为 “高能力” 的网络安全相关任务的模型 是 OpenAI 根据其准备框架 第一个被归类为 “高能力” 的网络安全相关任务的模型。它也是第一个经过直接训练以识别软件漏洞的模型。

双重用途性质

由于网络安全本质上是双重用途的（对防御和进攻都有用），OpenAI 正在采取预防措施：

没有明确的证据表明它可以自动执行端到端的网络攻击

部署全面的网络安全安全堆栈

实施安全培训和自动化监控

要求受信任的访问才能获得高级功能

网络安全的受信任访问

OpenAI 正在启动 网络安全的受信任访问，这是一个试点计划，旨在：

加速网络防御研究

首先为防御者提供工具

支持生态系统弹性

1000 万美元的承诺

在 2023 年 100 万美元的网络安全赠款计划的基础上，OpenAI 承诺 提供 1000 万美元的 API 信用额度，以加速网络防御，特别是对于：

开源软件

关键基础设施系统

善意的安全研究

Aardvark 安全代理

OpenAI 正在扩展 Aardvark（其安全研究代理）的私有 Beta 版，作为其 Codex 安全产品和工具套件中的第一个产品。他们还与开源维护人员合作，为 Next.js 等广泛使用的项目提供免费的代码库扫描。

OpenAI 如何使用 Codex 构建 Codex

的开发提供了一个关于 AI 加速研究的引人入胜的案例研究。

研究团队用例

研究团队使用早期版本的来：

监控和调试发布的训练运行

跟踪整个训练过程中的模式

对交互质量进行深入分析

提出修复建议并为人类研究人员构建丰富的应用程序

准确了解模型的行为与先前模型的不同之处

工程团队用例

工程团队使用 Codex 来：

优化和调整 <a2>GPT-5.3-Codex 的 harness</a2>

识别影响用户的上下文渲染错误

找出低缓存命中率的根本原因

动态扩展 GPU 集群以适应流量激增

在启动期间保持延迟稳定

数据科学用例

在 Alpha 测试期间，一位数据科学家与合作：

构建正则表达式分类器以估计澄清、用户响应和任务进度的频率

在所有会话日志上可扩展地运行这些分类器

构建新的数据管道并以比标准仪表板工具更丰富的方式可视化结果

共同分析结果，Codex 在不到三分钟的时间内总结了数千个数据点的关键见解

生产力提升

结果是？使用 Codex 构建的人员更快乐，因为代理：

更好地理解了他们的意图

每次轮换都取得了更大的进展

提出的澄清问题更少

可用性和定价

如何访问

对于所有 Codex 界面上的付费 ChatGPT 用户，立即可用 立即可用：

桌面应用程序 (macOS 和 Windows)

命令行界面 (CLI)

IDE 扩展 (VS Code、JetBrains 等)

Web 界面

订阅计划

在有限的时间内，付费计划将获得 双倍的正常速率限制。

API 定价

截至发布之日，OpenAI 尚未发布 <a2>GPT-5.3-Codex 的官方 API 定价</a2>。API 访问被描述为 “即将推出” 和 “在接下来的几周内推出”。

作为参考，先前模型 () 的当前 API 定价为：

基础设施

NVIDIA GB200 NVL72 系统 是与 NVIDIA GB200 NVL72 系统 共同设计、训练和提供的——这证明了 OpenAI 和 NVIDIA 在推动 AI 能力边界方面的密切合作。

与竞争对手的比较

Claude Opus 4.6 的发布仅在 Anthropic 宣布 Claude Opus 4.6 之后几分钟，从而立即建立了这两个模型之间的比较。

的优势

Terminal-Bench 2.0: 77.3 vs Opus 4.6 的 65.4 (+18.6% 的优势)

25% 更快的性能

“高可靠性、低方差”的设计理念

自我构建能力 (帮助创建了自己)

第一个 “高能力”的网络安全分类

的优势

100 万个 tokens 上下文窗口（显着更大）

Agent Teams 协作功能

更广泛的通用性，适用于各种知识工作场景

更高的创造力温度 (更具个性)

设计理念差异

更大的图景

通用代理迈出的变革性一步，这些代理可以在整个实际技术工作领域进行推理、构建和执行 不仅仅代表着渐进式的升级，它还是朝着 通用代理迈出的变革性一步，这些代理可以在整个实际技术工作领域进行推理、构建和执行。

从代码代理到计算机代理

OpenAI 明确地构建了这种演变：“Codex 正在超越编写代码，将其用作操作计算机和端到端完成工作的工具。”

这是一个深刻的转变。最初专注于成为 “最好的编码代理” 已经成为计算机上更通用的协作者的基础——扩大了可以构建的人员以及 AI 可以实现的功能。

加速 AI 开发

帮助构建自身的事实预示着未来的发展。正如 OpenAI 研究人员指出的那样，“OpenAI 的许多研究人员和工程师表示，他们今天的工作与两个月前的工作从根本上不同。”

这表明我们正在进入 AI 开发的 加速回报时期，每一代模型都有助于构建下一代模型——可能会将时间表从几年压缩到几个月。

对开发人员的影响

对于软件开发人员来说，影响是巨大的：

更快的开发周期 - AI 处理更多的日常工作

更高级别的抽象 - 开发人员可以专注于架构和设计

互动协作 - 不太像使用工具，更像是与团队成员一起工作

新功能 - 以前需要专业知识的任务现在可以访问

对企业的影响

对于企业而言，代表：

提高生产力 - 在更短的时间内完成更多工作

更低的门槛 - 某些任务所需的专业技能更少

新的安全注意事项 - “高能力” 网络安全分类需要谨慎治理

竞争优势 - 尽早采用强大的 agentic AI

结论

是人工智能领域的一项具有里程碑意义的成就。它结合了：

最先进的编码性能

高级 agentic 能力

互动协作

自我改进 (它帮助构建了自己)

真实世界的计算机使用

它在自身创建过程中发挥了重要作用，既是一项技术成就，也是 AI 发展方向的隐喻。随着模型变得越来越强大，它们不仅仅是我们使用的工具——它们正在成为创意和开发过程本身的合作伙伴。

与同步发布 (仅相隔几分钟) 突显了 AI 领域的激烈竞争。但更重要的是，它表明我们已经进入了 AI 能力的新阶段——在这个阶段，代理可以可靠地处理跨越整个专业计算机工作范围的复杂、长期任务。

正如 OpenAI 所说：“最初专注于成为最好的编码代理已成为计算机上更通用的协作者的基础。”

现在的问题不仅仅是这些模型能做什么——而是我们将选择用它们构建什么。

来源

Introducing GPT-5.3-Codex - OpenAI Official Announcement

GPT-5.3-Codex System Card - OpenAI

GPT 5.3 Codex pricing, benchmarks, and features explained - eesel AI

OpenAI: New coding model GPT-5.3-Codex helped build itself - Mashable

With GPT-5.3-Codex, OpenAI pitches Codex for more than just writing code - Ars Technica

OpenAI launches new agentic coding model only minutes after Anthropic drops its own - TechCrunch

Opus 4.6 vs CODEX 5.3, first real comparison - Reddit

GPT 5.3 Codex vs. Opus 4.6: The Great Convergence - Every

OpenAI Platform Pricing

Codex Pricing

SWE-Bench Official Leaderboard

免责声明： 本文基于截至 2026 年 2 月 6 日的信息。规格、定价和可用性可能会发生变化。有关最新信息，请参阅官方 OpenAI 文档。

GPT-5.3-Codex: OpenAI 最强大的 Agentic 编码模型

简介