Sider.ai
  • 聊天
  • Wisebase
  • 工具
  • 瀏覽器插件
  • 客户端
  • 定價
立即下載
登入

透過 Sider 更快學習、更深入思考、更聰明成長。

產品
應用程式
  • 擴充功能
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
工具
  • 網站產生器New
  • AI 投影片New
  • AI 論文寫作
  • Nano Banana Pro
  • Nano Banana Infographic
  • AI 圖像生成器
  • 意大利腦洞
  • 背景移除器
  • 背景更換器
  • 照片橡皮擦
  • 文字移除器
  • 修補
  • 圖像升級器
  • 創建
  • AI 翻譯器
  • 圖像翻譯器
  • PDF 翻譯器
Sider
  • 聯絡我們
  • 幫助中心
  • 下載
  • 定價
  • 教育優惠
  • 最新消息
  • 部落格
  • 社群
  • 合作夥伴
  • 聯盟
  • 邀請
©2026 版權所有
使用條款
隱私政策
  • 首頁
  • 部落格
  • AI新聞
  • GPT-5.3-Codex:OpenAI 最強大的 Agentic 編碼模型

GPT-5.3-Codex:OpenAI 最強大的 Agentic 編碼模型

更新於 2026年2月6日

1 分鐘


簡介

在2026年2月5日,OpenAI宣布了GPT-5.3-Codex,這是迄今為止最先進的代理編碼模型。這次發布標誌著人工智能領域的一個重要里程碑——不僅因為其令人印象深刻的技術能力,而且因為它是第一個在創建自身過程中發揮重要作用的模型。
代表著從程式碼編寫工具到互動式AI協作者的根本轉變,能夠處理跨越整個專業計算任務範圍的長期、真實的技術工作。

有何不同?

真正的代理模型

與僅生成程式碼片段的傳統編碼助手不同,被設計為一個「代理」模型。這意味著它可以:
  • 在長時間運行的任務中保持上下文,這些任務可能持續數小時甚至數天
  • 自主使用工具,包括命令列介面、檔案系統和開發環境
  • 根據即時回饋進行調整和疊代,而不會迷失方向
  • 處理需要研究、規劃和執行的複雜多步驟工作流程

自我構建的成就

GPT-5.3-Codex最顯著的方面可能是Codex團隊使用該模型的早期版本來:
  • 調試自己的訓練過程
  • 管理自己的部署
  • 診斷測試結果和評估
  • 優化基礎設施以進行最終發布
這種自我參照的開發週期表明,AI正開始加速自身改進——OpenAI的研究人員將其描述為「Codex能夠加速自身發展的程度讓我們感到震驚」的一個里程碑。

性能改進

由於OpenAI的基礎設施和推論堆疊的改進,快25%比其前身(快25%)快25%。這種速度的提高能夠實現更快的即時協作和更快的迭代週期。

基準性能:資料

在衡量程式碼編寫、代理能力和真實電腦使用的多個關鍵基準測試中,實現了最先進的性能。

SWE-Bench Pro

SWE-Bench Pro是對真實世界軟體工程的嚴格評估,涵蓋四種程式語言(Python、JavaScript、TypeScript和Go)。與僅測試Python的前身(SWE-Bench Verified)不同,SWE-Bench Pro旨在更具抗污染性和行業相關性。

Terminal-Bench 2.0

在Terminal-Bench 2.0上的GPT-5.3-Codex尤其重要。該基準測試衡量了編碼代理所需的終端技能——導航檔案系統、執行命令和管理開發工作流程。值得注意的是,GPT-5.3-Codex以比以往任何模型都少的Token實現了這一點,使其效率更高。

OSWorld-Verified

在OSWorld-Verified上的GPT-5.3-Codex表明電腦使用能力得到了顯著提高。OSWorld是一個代理電腦使用基準測試,代理必須在可視化桌面環境中完成生產力任務。這種巨大的改進表明,GPT-5.3-Codex在導航真實世界介面方面比以前的模型要好得多。

超越程式碼:通用代理

雖然擅長程式設計,但其能力遠遠超出程式碼生成。OpenAI將其定位為可以處理「開發人員和專業人員幾乎可以在電腦上做的任何事情」的代理。

軟體生命週期支援

該模型旨在支援整個軟體開發生命週期:
  • 除錯 - 識別和修復錯誤
  • 部署 - 管理發布和基礎設施
  • 監控 - 追蹤效能和指標
  • 編寫PRD - 產品需求文件
  • 編輯副本 - 文件和行銷文字
  • 使用者研究 - 分析使用者回饋
  • 測試 - 編寫和運行測試套件
  • 指標分析 - 數據驅動的決策

知識工作能力

在GPT-5.3-Codex(OpenAI 2025年的評估,衡量跨44個職業的知識工作任務的效能)上,GPT-5.3-Codex與GPT-5.2的效能相匹配。這包括以下任務:
  • 創建投影片和演示文稿
  • 分析試算表中的資料
  • 文件管理和組織
  • 研究和綜合

Web開發範例

為了展示該模型的功能,OpenAI要求從頭開始構建兩個完整的遊戲:
  • 賽車遊戲(Codex應用程式啟動遊戲的第2版)
  • 潛水遊戲
僅使用「開發Web遊戲」技能和通用的後續提示(例如「修復錯誤」或「改進遊戲」),在數百萬個Token上自主疊代,構建了高度功能化、精美的遊戲。

更好的意圖理解

與相比,新模型在構建網站時更好地理解使用者意圖。簡單或未充分指定的提示現在預設為具有以下內容的網站:
  • 更多功能
  • 合理的預設
  • 生產就緒功能
例如,當要求構建定價登陸頁面時,自動將年度計畫顯示為折扣後的每月價格(使折扣清晰可見),並創建了一個自動轉換的推薦輪播,其中包含三個不同的使用者引言——從而產生了更完整和精美的設計。

互動式協作

使用者體驗方面最重要的改進之一是能夠在模型工作時引導它。

即時互動

使用者現在可以不必等待最終輸出,而是可以:
  • 在執行過程中提出問題
  • 討論不同的方法
  • 引導至特定的解決方案
  • 在任務中期提供回饋
設定>常規>後續行為會說明它在做什麼,回應回饋,並始終讓使用者瞭解情況。這可以在Codex應用程式中通過設定>常規>後續行為啟用。
這將體驗從向機器發出命令轉變為與團隊成員協作——這是人與AI系統互動方式的根本轉變。

網路安全能力和安全性

分類為「高能力」網路安全相關任務的第一個模型是OpenAI根據其Preparedness Framework分類為「高能力」網路安全相關任務的第一個模型。它也是第一個直接接受訓練以識別軟體漏洞的模型。

雙重用途性質

由於網路安全本質上是雙重用途(對防禦和攻擊都有用),因此OpenAI正在採取預防措施:
  • 沒有明確的證據表明它可以自動化端到端的網路攻擊
  • 部署全面的網路安全安全堆疊
  • 實施安全培訓和自動監控
  • 要求可信任的訪問以獲得高級功能

網路安全的可信任訪問

OpenAI正在啟動網路安全的可信任訪問,一個試點計畫,以:
  • 加速網路防禦研究
  • 首先將工具提供給防禦者
  • 支援生態系統彈性

1000萬美元的承諾

在2023年100萬美元的網路安全資助計畫的基礎上,OpenAI承諾提供1000萬美元的API信用額度,以加速網路防禦,尤其是對於:
  • 開放原始碼軟體
  • 關鍵基礎設施系統
  • 善意的安全研究

Aardvark安全代理

OpenAI正在擴大Aardvark(其安全研究代理)的私人Beta版,作為其Codex安全產品和工具套件中的第一個產品。他們還與開放原始碼維護者合作,為Next.js等廣泛使用的專案提供免費程式碼庫掃描。

OpenAI如何使用Codex構建Codex

的開發提供了一個關於AI加速研究的有趣的案例研究。

研究團隊用例

研究團隊使用的早期版本來:
  • 監控和除錯發布的訓練運行
  • 追蹤模式在整個訓練過程中
  • 提供深入分析關於互動品質
  • 提出修復建議並為人類研究人員構建豐富的應用程式
  • 準確理解模型的行為與先前模型的不同之處

工程團隊用例

工程團隊使用Codex來:
  • 優化和調整<a2>GPT-5.3-Codex的線束</a2>
  • 識別影響使用者的上下文呈現錯誤
  • 找出低快取命中率的根本原因
  • 動態縮放GPU集群以適應流量激增
  • 在啟動期間保持延遲穩定

資料科學用例

在Alpha測試期間,一位資料科學家與合作:
  • 構建正則表達式分類器以估計澄清、使用者回應和任務進度的頻率
  • 在所有會話日誌上可擴展地運行這些分類器
  • 構建新的資料管道並以比標準儀表板工具更豐富的方式視覺化結果
  • 共同分析結果,Codex在不到三分鐘的時間內總結了數千個資料點的關鍵見解

生產力提升

結果呢?使用Codex構建的人們更快樂,因為代理:
  • 更好地理解了他們的意圖
  • 每次迭代都取得了更多進展
  • 提出的澄清問題更少

可用性和定價

如何訪問

所有Codex介面上的付費ChatGPT使用者可以立即使用GPT-5.3-Codex:
  • 桌面應用程式(macOS和Windows)
  • 命令列介面(CLI)
  • IDE擴展(VS Code、JetBrains等)
  • Web介面

訂閱計畫

在限定時間內,付費計畫將獲得雙倍的正常速率限制。

API定價

截至發布時,OpenAI尚未發布GPT-5.3-Codex的官方API定價。API訪問被描述為「即將推出」和「將在接下來的幾周內推出」。
作為參考,先前模型()的當前API定價為:

基礎設施

NVIDIA GB200 NVL72系統是與NVIDIA GB200 NVL72系統共同設計、訓練和服務的——這證明了OpenAI和NVIDIA在推動AI能力邊界方面的密切合作。

與競爭對手的比較

Claude Opus 4.6的發布僅在Anthropic宣布Claude Opus 4.6幾分鐘後,立即在這兩個模型之間建立了比較。

的優勢

  • Terminal-Bench 2.0:77.3 vs Opus 4.6的65.4(+18.6%的優勢)
  • 快25%的效能
  • 「高可靠性、低變異性」的設計理念
  • 自我構建能力(有助於創建自身)
  • 第一個「高能力」的網路安全分類

的優勢

  • 100萬個Token的上下文視窗(顯著更大)
  • 代理團隊協作功能
  • 更廣泛的多功能性跨知識工作場景
  • 更高的創造力溫度(更多個性)

設計理念差異

更大的圖景

可以推理、構建和執行的通用代理不僅僅代表著一個增量升級——它是邁向可以推理、構建和執行的通用代理的一大步,涵蓋了真實世界技術工作的整個範圍。

從程式碼代理到電腦代理

OpenAI明確地闡述了這種演變:「Codex正在超越編寫程式碼,將其用作操作電腦和端到端完成工作的工具。」
這是一個深刻的轉變。最初專注於成為「最好的編碼代理」已成為電腦上更通用的協作者的基礎——擴大了可以構建的人員和AI的可能性。

加速AI開發

有助於構建自身的事實預示了未來的發展。正如OpenAI的研究人員所指出的那樣,「OpenAI的許多研究人員和工程師表示,他們今天的工作與兩個月前的工作有著根本的不同。」
這表明我們正在進入AI開發的加速回報時期,每一代模型都有助於構建下一個模型——可能會將時間從幾年壓縮到幾個月。

對開發人員的影響

對於軟體開發人員來說,影響是巨大的:
  • 更快的開發週期 - AI處理更多的常規工作
  • 更高層次的抽象 - 開發人員可以專注於架構和設計
  • 互動式協作 - 不太像使用工具,更像與團隊成員合作
  • 新功能 - 以前需要專業知識的任務現在可以訪問

對企業的影響

對於企業來說,代表:
  • 提高生產力 - 在更短的時間內完成更多工作
  • 更低的門檻 - 某些任務所需的專業技能更少
  • 新的安全考量 - 「高能力」網路安全分類需要仔細的管理
  • 競爭優勢 - 早期採用強大的代理AI

結論

是人工智慧領域的一個具有里程碑意義的成就。它結合了:
  • 最先進的程式碼編寫效能
  • 先進的代理能力
  • 互動式協作
  • 自我改進(它有助於構建自身)
  • 真實世界的電腦使用
它在自身創建過程中發揮了重要作用,既是一項技術成就,也是AI發展方向的隱喻。隨著模型變得越來越強大,它們不僅僅是我們使用的工具——它們正在成為創意和開發過程本身的合作夥伴。
與同時發布,僅相隔幾分鐘,突顯了AI領域競爭的激烈程度。但更重要的是,它表明我們已經進入了AI能力的一個新階段——在這個階段,代理可以可靠地處理跨越專業電腦工作的整個範圍的複雜、長期任務。
正如OpenAI所說:「最初專注於成為最好的編碼代理已成為電腦上更通用的協作者的基礎。」
現在的問題不僅僅是這些模型可以做什麼——而是我們將選擇用它們來構建什麼。

來源

Introducing GPT-5.3-Codex - OpenAI Official Announcement
GPT-5.3-Codex System Card - OpenAI
GPT 5.3 Codex pricing, benchmarks, and features explained - eesel AI
OpenAI: New coding model GPT-5.3-Codex helped build itself - Mashable
With GPT-5.3-Codex, OpenAI pitches Codex for more than just writing code - Ars Technica
OpenAI launches new agentic coding model only minutes after Anthropic drops its own - TechCrunch
Opus 4.6 vs CODEX 5.3, first real comparison - Reddit
GPT 5.3 Codex vs. Opus 4.6: The Great Convergence - Every
OpenAI Platform Pricing
Codex Pricing
SWE-Bench Official Leaderboard

免責聲明:本文基於截至2026年2月6日可用的資訊。規格、定價和可用性可能會發生變化。有關最新資訊,請參閱OpenAI官方文件。

最新文章
OpenAI 發展與里程碑詳細時間軸

OpenAI 發展與里程碑詳細時間軸

Compose AI 擴展 Chrome | 評價與替代方案

Compose AI 擴展 Chrome | 評價與替代方案