簡介
在2026年2月5日,OpenAI宣布了GPT-5.3-Codex,這是迄今為止最先進的代理編碼模型。這次發布標誌著人工智能領域的一個重要里程碑——不僅因為其令人印象深刻的技術能力,而且因為它是第一個在創建自身過程中發揮重要作用的模型。
代表著從程式碼編寫工具到互動式AI協作者的根本轉變,能夠處理跨越整個專業計算任務範圍的長期、真實的技術工作。
有何不同?
真正的代理模型
與僅生成程式碼片段的傳統編碼助手不同,被設計為一個「代理」模型。這意味著它可以:
- 在長時間運行的任務中保持上下文,這些任務可能持續數小時甚至數天
自我構建的成就
GPT-5.3-Codex最顯著的方面可能是Codex團隊使用該模型的早期版本來:
這種自我參照的開發週期表明,AI正開始加速自身改進——OpenAI的研究人員將其描述為「Codex能夠加速自身發展的程度讓我們感到震驚」的一個里程碑。
性能改進
由於OpenAI的基礎設施和推論堆疊的改進,快25%比其前身(快25%)快25%。這種速度的提高能夠實現更快的即時協作和更快的迭代週期。
基準性能:資料
在衡量程式碼編寫、代理能力和真實電腦使用的多個關鍵基準測試中,實現了最先進的性能。
SWE-Bench Pro
SWE-Bench Pro是對真實世界軟體工程的嚴格評估,涵蓋四種程式語言(Python、JavaScript、TypeScript和Go)。與僅測試Python的前身(SWE-Bench Verified)不同,SWE-Bench Pro旨在更具抗污染性和行業相關性。
Terminal-Bench 2.0
在Terminal-Bench 2.0上的GPT-5.3-Codex尤其重要。該基準測試衡量了編碼代理所需的終端技能——導航檔案系統、執行命令和管理開發工作流程。值得注意的是,GPT-5.3-Codex以比以往任何模型都少的Token實現了這一點,使其效率更高。
OSWorld-Verified
在OSWorld-Verified上的GPT-5.3-Codex表明電腦使用能力得到了顯著提高。OSWorld是一個代理電腦使用基準測試,代理必須在可視化桌面環境中完成生產力任務。這種巨大的改進表明,GPT-5.3-Codex在導航真實世界介面方面比以前的模型要好得多。
超越程式碼:通用代理
雖然擅長程式設計,但其能力遠遠超出程式碼生成。OpenAI將其定位為可以處理「開發人員和專業人員幾乎可以在電腦上做的任何事情」的代理。
軟體生命週期支援
該模型旨在支援整個軟體開發生命週期:
知識工作能力
在GPT-5.3-Codex(OpenAI 2025年的評估,衡量跨44個職業的知識工作任務的效能)上,GPT-5.3-Codex與GPT-5.2的效能相匹配。這包括以下任務:
Web開發範例
為了展示該模型的功能,OpenAI要求從頭開始構建兩個完整的遊戲:
僅使用「開發Web遊戲」技能和通用的後續提示(例如「修復錯誤」或「改進遊戲」),在數百萬個Token上自主疊代,構建了高度功能化、精美的遊戲。
更好的意圖理解
與相比,新模型在構建網站時更好地理解使用者意圖。簡單或未充分指定的提示現在預設為具有以下內容的網站:
例如,當要求構建定價登陸頁面時,自動將年度計畫顯示為折扣後的每月價格(使折扣清晰可見),並創建了一個自動轉換的推薦輪播,其中包含三個不同的使用者引言——從而產生了更完整和精美的設計。
互動式協作
使用者體驗方面最重要的改進之一是能夠在模型工作時引導它。
即時互動
使用者現在可以不必等待最終輸出,而是可以:
設定>常規>後續行為會說明它在做什麼,回應回饋,並始終讓使用者瞭解情況。這可以在Codex應用程式中通過設定>常規>後續行為啟用。
這將體驗從向機器發出命令轉變為與團隊成員協作——這是人與AI系統互動方式的根本轉變。
網路安全能力和安全性
分類為「高能力」網路安全相關任務的第一個模型是OpenAI根據其Preparedness Framework分類為「高能力」網路安全相關任務的第一個模型。它也是第一個直接接受訓練以識別軟體漏洞的模型。
雙重用途性質
由於網路安全本質上是雙重用途(對防禦和攻擊都有用),因此OpenAI正在採取預防措施:
網路安全的可信任訪問
OpenAI正在啟動網路安全的可信任訪問,一個試點計畫,以:
1000萬美元的承諾
在2023年100萬美元的網路安全資助計畫的基礎上,OpenAI承諾提供1000萬美元的API信用額度,以加速網路防禦,尤其是對於:
Aardvark安全代理
OpenAI正在擴大Aardvark(其安全研究代理)的私人Beta版,作為其Codex安全產品和工具套件中的第一個產品。他們還與開放原始碼維護者合作,為Next.js等廣泛使用的專案提供免費程式碼庫掃描。
OpenAI如何使用Codex構建Codex
的開發提供了一個關於AI加速研究的有趣的案例研究。
研究團隊用例
研究團隊使用的早期版本來:
工程團隊用例
工程團隊使用Codex來:
- 優化和調整<a2>GPT-5.3-Codex的線束</a2>
資料科學用例
在Alpha測試期間,一位資料科學家與合作:
- 構建正則表達式分類器以估計澄清、使用者回應和任務進度的頻率
- 構建新的資料管道並以比標準儀表板工具更豐富的方式視覺化結果
- 共同分析結果,Codex在不到三分鐘的時間內總結了數千個資料點的關鍵見解
生產力提升
結果呢?使用Codex構建的人們更快樂,因為代理:
可用性和定價
如何訪問
所有Codex介面上的付費ChatGPT使用者可以立即使用GPT-5.3-Codex:
- IDE擴展(VS Code、JetBrains等)
訂閱計畫
在限定時間內,付費計畫將獲得雙倍的正常速率限制。
API定價
截至發布時,OpenAI尚未發布GPT-5.3-Codex的官方API定價。API訪問被描述為「即將推出」和「將在接下來的幾周內推出」。
作為參考,先前模型()的當前API定價為:
基礎設施
NVIDIA GB200 NVL72系統是與NVIDIA GB200 NVL72系統共同設計、訓練和服務的——這證明了OpenAI和NVIDIA在推動AI能力邊界方面的密切合作。
與競爭對手的比較
Claude Opus 4.6的發布僅在Anthropic宣布Claude Opus 4.6幾分鐘後,立即在這兩個模型之間建立了比較。
的優勢
- Terminal-Bench 2.0:77.3 vs Opus 4.6的65.4(+18.6%的優勢)
的優勢
設計理念差異
更大的圖景
可以推理、構建和執行的通用代理不僅僅代表著一個增量升級——它是邁向可以推理、構建和執行的通用代理的一大步,涵蓋了真實世界技術工作的整個範圍。
從程式碼代理到電腦代理
OpenAI明確地闡述了這種演變:「Codex正在超越編寫程式碼,將其用作操作電腦和端到端完成工作的工具。」
這是一個深刻的轉變。最初專注於成為「最好的編碼代理」已成為電腦上更通用的協作者的基礎——擴大了可以構建的人員和AI的可能性。
加速AI開發
有助於構建自身的事實預示了未來的發展。正如OpenAI的研究人員所指出的那樣,「OpenAI的許多研究人員和工程師表示,他們今天的工作與兩個月前的工作有著根本的不同。」
這表明我們正在進入AI開發的加速回報時期,每一代模型都有助於構建下一個模型——可能會將時間從幾年壓縮到幾個月。
對開發人員的影響
對於軟體開發人員來說,影響是巨大的:
- 互動式協作 - 不太像使用工具,更像與團隊成員合作
對企業的影響
對於企業來說,代表:
- 新的安全考量 - 「高能力」網路安全分類需要仔細的管理
結論
是人工智慧領域的一個具有里程碑意義的成就。它結合了:
它在自身創建過程中發揮了重要作用,既是一項技術成就,也是AI發展方向的隱喻。隨著模型變得越來越強大,它們不僅僅是我們使用的工具——它們正在成為創意和開發過程本身的合作夥伴。
與同時發布,僅相隔幾分鐘,突顯了AI領域競爭的激烈程度。但更重要的是,它表明我們已經進入了AI能力的一個新階段——在這個階段,代理可以可靠地處理跨越專業電腦工作的整個範圍的複雜、長期任務。
正如OpenAI所說:「最初專注於成為最好的編碼代理已成為電腦上更通用的協作者的基礎。」
現在的問題不僅僅是這些模型可以做什麼——而是我們將選擇用它們來構建什麼。
來源
免責聲明:本文基於截至2026年2月6日可用的資訊。規格、定價和可用性可能會發生變化。有關最新資訊,請參閱OpenAI官方文件。