はじめに

2026年2月5日、OpenAIは、最新のエージェント型コーディングモデルGPT-5.3-Codexを発表しました。このリリースは、その優れた技術的能力だけでなく、それ自体を作成する上で役立った最初のモデルであるという点で、人工知能における重要なマイルストーンとなります。

GPT-5.3-Codexは、単なるコード作成ツールから、プロフェッショナルなコンピューティングタスクの全範囲にわたって、長期的な現実世界の技術的な作業を処理できるインタラクティブなAIコラボレーターへの根本的な移行を意味します。

GPT-5.3-Codexは何が違うのか？

真のエージェント型モデル

単にコードスニペットを生成する従来のコーディングアシスタントとは異なり、GPT-5.3-Codexは「エージェント型」モデルとして設計されています。これは、以下のことが可能であることを意味します。

数時間、あるいは数日にも及ぶ長期的なタスク全体でコンテキストを維持できる

コマンドラインインターフェース、ファイルシステム、開発環境などのツールを自律的に使用できる

場所を見失うことなく、リアルタイムのフィードバックに基づいて適応および反復できる

調査、計画、および実行を必要とする複雑なマルチステップワークフローを処理できる

自己構築の達成

GPT-5.3-Codexの最も注目すべき点は、Codexチームがモデルの初期バージョンを使用して以下を行ったことです。

独自のトレーニングプロセスをデバッグした

独自のデプロイメントを管理した

テスト結果と評価を診断した

最終リリースに向けてインフラストラクチャを最適化した

この自己参照的な開発サイクルは、AIがどのように独自の改善を加速し始めているかを示しています。OpenAIの研究者は、「Codexが自身の開発をどれだけ加速できたかに驚かされた」と述べています。

パフォーマンスの向上

GPT-5.3-Codexは、OpenAIのインフラストラクチャと推論スタックの改善により、前身（GPT-5.2-Codex）よりも25％高速です。この速度の向上により、より応答性の高いリアルタイムコラボレーションと、より高速な反復サイクルが可能になります。

ベンチマークパフォーマンス：データ

GPT-5.3-Codexは、コーディング、エージェント機能、および現実世界のコンピューター使用を測定するいくつかの主要なベンチマークで、最先端のパフォーマンスを達成しています。

SWE-Bench Pro

SWE-Bench Proは、4つのプログラミング言語（Python、JavaScript、TypeScript、Go）にまたがる現実世界のソフトウェアエンジニアリングの厳格な評価です。Pythonのみをテストした前身（SWE-Bench Verified）とは異なり、SWE-Bench Proは、より汚染耐性があり、業界関連性があるように設計されています。

Terminal-Bench 2.0

Terminal-Bench 2.0での13.3％の改善は特に重要です。このベンチマークは、コーディングエージェントが必要とするターミナルスキル（ファイルシステムのナビゲート、コマンドの実行、開発ワークフローの管理）を測定します。特に、GPT-5.3-Codexは、以前のどのモデルよりも少ないトークンでこれを達成し、効率を高めています。

OSWorld-Verified

OSWorld-Verifiedでの26.5％の向上は、コンピューター使用能力が劇的に向上したことを示しています。OSWorldは、エージェントが視覚的なデスクトップ環境で生産性タスクを完了する必要があるエージェント型のコンピューター使用ベンチマークです。この大幅な改善は、GPT-5.3-Codexが以前のモデルよりも現実世界のインターフェースをナビゲートするのがはるかに優れていることを示しています。

コードを超えて：汎用エージェント

GPT-5.3-Codexはプログラミングに優れていますが、その機能はコード生成をはるかに超えています。OpenAIは、これを「開発者や専門家がコンピューターで行うほぼすべてのことができる」エージェントと位置付けています。

ソフトウェアライフサイクルサポート

このモデルは、ソフトウェア開発ライフサイクル全体をサポートするように構築されています。

デバッグ - バグの特定と修正

デプロイ - リリースとインフラストラクチャの管理

監視 - パフォーマンスとメトリクスの追跡

PRDの作成 - 製品要件ドキュメント

コピーの編集 - ドキュメントとマーケティングテキスト

ユーザー調査 - ユーザーフィードバックの分析

テスト - テストスイートの作成と実行

メトリクス分析 - データ駆動型の意思決定

ナレッジワークの能力

GDPval（44の職業にわたるナレッジワークタスクのパフォーマンスを測定するOpenAIの2025年の評価）では、GPT-5.3-CodexはGPT-5.2のパフォーマンスに匹敵します。これには、次のようなタスクが含まれます。

スライドデッキとプレゼンテーションの作成

スプレッドシートでのデータの分析

ドキュメントの管理と整理

調査と統合

Web開発の例

モデルの能力を示すために、OpenAIはGPT-5.3-Codexに2つの完全なゲームをゼロから構築するように依頼しました。

レーシングゲーム（Codexアプリのローンチゲームのバージョン2）

ダイビングゲーム

「Webゲームの開発」スキルと、「バグを修正する」または「ゲームを改善する」のような一般的なフォローアッププロンプトのみを使用して、GPT-5.3-Codexは何百万ものトークンを自律的に反復処理し、高度に機能的で洗練されたゲームを構築しました。

より優れた意図の理解

GPT-5.2-Codexと比較して、新しいモデルはWebサイトを構築する際のユーザーの意図をより良く理解します。単純または不明確なプロンプトは、次のサイトにデフォルト設定されるようになりました。

より多くの機能

妥当なデフォルト

本番環境対応の機能

たとえば、価格設定のランディングページを構築するように依頼された場合、GPT-5.3-Codexは年間プランを割引された月額価格として自動的に表示し（割引を明確にする）、3つの異なるユーザーの見積もりを含む自動的に移行するお客様の声カルーセルを作成しました。これにより、より完全で洗練されたデザインになりました。

インタラクティブなコラボレーション

最も重要なユーザーエクスペリエンスの改善点の1つは、モデルが作業中にモデルを誘導できることです。

リアルタイムインタラクション

最終的な出力を待つ代わりに、ユーザーは次のことができるようになりました。

実行中に質問をする

さまざまなアプローチについて議論する

特定のソリューションに向かって誘導する

タスクの途中でフィードバックを提供する

GPT-5.3-Codexは、何をしているのかを説明し、フィードバックに対応し、最初から最後までユーザーを関与させます。これは、Codexアプリの設定 > 一般 > フォローアップの動作で有効にできます。

これにより、エクスペリエンスがマシンにコマンドを与えることから、チームメイトとコラボレーションすることに変わります。これは、人間がAIシステムと対話する方法の根本的な変化です。

サイバーセキュリティ機能と安全性

GPT-5.3-Codexは、OpenAIが準備フレームワークの下でサイバーセキュリティ関連タスクに対して「高度な能力」として分類する最初のモデルです。また、ソフトウェアの脆弱性を特定するように直接トレーニングされた最初のモデルでもあります。

二重使用の性質

サイバーセキュリティは本質的に二重使用（防御と攻撃の両方に役立つ）であるため、OpenAIは予防的なアプローチを取っています。

サイバー攻撃をエンドツーエンドで自動化できるという決定的な証拠はない

包括的なサイバーセキュリティ安全スタックのデプロイ

安全トレーニングと自動監視の実装

高度な機能への信頼できるアクセスの要求

サイバーセキュリティのための信頼できるアクセス

OpenAIは、サイバーセキュリティのための信頼できるアクセスというパイロットプログラムを開始します。

サイバー防御研究を加速する

ツールを最初に防御者に提供する

エコシステムの回復力をサポートする

1,000万ドルのコミットメント

2023年の100万ドルのサイバーセキュリティ助成プログラムに基づいて、OpenAIはサイバー防御を加速するために1,000万ドルのAPIクレジットを約束します。特に、以下を対象とします。

オープンソースソフトウェア

重要なインフラストラクチャシステム

誠実なセキュリティ研究

Aardvarkセキュリティエージェント

OpenAIは、Codexセキュリティ製品およびツールのスイートの最初の製品として、セキュリティ研究エージェントであるAardvarkのプライベートベータ版を拡大しています。また、Next.jsのような広く使用されているプロジェクトの無料コードベーススキャンを提供するために、オープンソースのメンテナと提携しています。

OpenAIがCodexを使用してCodexを構築した方法

GPT-5.3-Codexの開発は、AI加速研究の魅力的なケーススタディを提供します。

研究チームの使用例

研究チームは、GPT-5.3-Codexの初期バージョンを使用して以下を行いました。

リリースのためのトレーニング実行を監視およびデバッグする

トレーニングの過程全体を通してパターンを追跡する

インタラクションの品質に関する詳細な分析を提供する

修正を提案し、人間の研究者向けの豊富なアプリケーションを構築する

モデルの動作が以前のモデルとどのように異なるかを正確に理解する

エンジニアリングチームの使用例

エンジニアリングチームはCodexを使用して以下を行いました。

GPT-5.3-Codexのハーネスを最適化および適応させる

ユーザーに影響を与えるコンテキストレンダリングのバグを特定する

キャッシュヒット率が低い根本原因を特定する

トラフィックの急増に合わせてGPUクラスターを動的にスケーリングする

ローンチ中にレイテンシーを安定に保つ

データサイエンスの使用例

アルファテスト中に、データサイエンティストはGPT-5.3-Codexと協力して以下を行いました。

明確化、ユーザーの応答、およびタスクの進捗状況の頻度を推定するために正規表現分類子を構築する

これらの分類子をすべてのセッションログでスケーラブルに実行する

標準的なダッシュボードツールよりも豊富に新しいデータパイプラインを構築し、結果を視覚化する

Codexと共同で結果を分析し、3分以内に数千のデータポイントにわたって主要な洞察を要約する

生産性の向上

結果はどうでしょうか？Codexを使用して構築している人々は、エージェントとしてより満足していました。

彼らの意図をより良く理解した

ターンごとに進捗が向上した

明確化のための質問が少なくなった

可用性と価格

アクセス方法

GPT-5.3-Codexは、すべてのCodexサーフェスで有料のChatGPTユーザーがすぐに利用できます。

デスクトップアプリ（macOSおよびWindows）

コマンドラインインターフェース（CLI）

IDE拡張機能（VS Code、JetBrainsなど）

Webインターフェース

サブスクリプションプラン

期間限定で、有料プランは通常のレート制限の2倍を受け取ります。

API価格

ローンチの時点で、OpenAIはGPT-5.3-Codexの公式API価格をリリースしていません。APIアクセスは「近日中に展開」および「数週間以内に提供」されると説明されています。

参考までに、以前のモデル（GPT-5.2-Codex）の現在のAPI価格は次のとおりです。

インフラストラクチャ

GPT-5.3-Codexは、AI能力の限界を押し広げるOpenAIとNVIDIAの緊密なコラボレーションの証であるNVIDIA GB200 NVL72システムで共同設計、トレーニング、および提供されました。

競合他社との比較

GPT-5.3-Codexのリリースは、AnthropicがClaude Opus 4.6を発表した直後に行われ、2つのモデル間の直接的な比較が行われました。

GPT-5.3-Codexの強み

Terminal-Bench 2.0: 77.3 vs Opus 4.6の65.4（+18.6％の優位性）

25％高速なパフォーマンス

「高い信頼性、低い分散」設計哲学

自己構築能力（それ自体を作成するのに役立った）

最初の「高度な能力」サイバーセキュリティ分類

Claude Opus 4.6の強み

100万トークンのコンテキストウィンドウ（大幅に大きい）

エージェントチームの共同機能

ナレッジワークのシナリオ全体でより幅広い汎用性

より高い創造性の温度（より多くの個性）

設計哲学の違い

より大きな全体像

GPT-5.3-Codexは単なる段階的なアップグレード以上のものを表しています。これは、現実世界の技術的な作業の全範囲にわたって推論、構築、および実行できる汎用エージェントへのステップチェンジです。

コードエージェントからコンピューターエージェントへ

OpenAIは、この進化を明確に位置付けています。「Codexは、コードの記述から、コンピューターを操作してエンドツーエンドで作業を完了するためのツールとして使用することに移行しています。」

これは大きな変化です。「最高のコーディングエージェント」になることに重点を置いていたものが、コンピューター上のより一般的なコラボレーターの基盤となり、構築できる人とAIで可能なことの両方を拡大しています。

AI開発の加速

GPT-5.3-Codexがそれ自体を構築するのに役立ったという事実は、今後のプレビューです。OpenAIの研究者が述べているように、「OpenAIの多くの研究者とエンジニアは、今日の仕事がわずか2か月前とは根本的に異なっていると説明しています。」

これは、AI開発において収益加速の時期に入っていることを示唆しています。各世代のモデルが次のモデルの構築を支援し、タイムラインを数年から数か月に短縮する可能性があります。

開発者への影響

ソフトウェア開発者にとって、その影響は重大です。

より高速な開発サイクル - AIがルーチンワークの多くを処理する

より高レベルの抽象化 - 開発者はアーキテクチャと設計に集中できる

インタラクティブなコラボレーション - ツールを使用するようなものではなく、チームメイトと協力するようなもの

新しい機能 - 以前は専門知識が必要だったタスクにアクセスできるようになった

ビジネスへの影響

企業にとって、GPT-5.3-Codexは以下を表しています。

生産性の向上 - より多くの作業がより短い時間で完了する

障壁の低下 - 特定のタスクに必要な専門スキルが少なくなった

新しいセキュリティ上の考慮事項 - 「高度な能力」のサイバーセキュリティ分類には、慎重なガバナンスが必要

競争上の優位性 - 強力なエージェント型AIの早期採用

結論

GPT-5.3-Codexは、人工知能における画期的な成果です。これは、以下を組み合わせたものです。

最先端のコーディングパフォーマンス

高度なエージェント機能

インタラクティブなコラボレーション

自己改善（それ自体を構築するのに役立った）

現実世界のコンピューターの使用

それがそれ自身の作成に役立ったという事実は、技術的な成果と、AIが向かっている方向の両方の比喩として役立ちます。モデルがより有能になるにつれて、それらは単なる私たちが使用するツールではなく、創造的および開発プロセス自体のパートナーになりつつあります。

Claude Opus 4.6との同時リリースは、わずか数分しか離れておらず、AI分野における競争の激しさを強調しています。しかし、さらに重要なことは、エージェントが専門的なコンピューター作業の全範囲にわたって、複雑で長期的なタスクを確実に処理できるという、AI能力の新しい段階に入ったことを示しています。

OpenAIが述べているように、「最高のコーディングエージェントになることに重点を置いていたものが、コンピューター上のより一般的なコラボレーターの基盤になりました。」

今や問題は、これらのモデルが何ができるかだけでなく、それらを使用して何を構築することを選択するかということです。