Einleitung
Am 5. Februar 2026 kündigte OpenAI GPT-5.3-Codex an, sein bisher fortschrittlichstes agentenbasiertes Codierungsmodell. Diese Veröffentlichung markiert einen bedeutenden Meilenstein in der künstlichen Intelligenz – nicht nur wegen seiner beeindruckenden technischen Fähigkeiten, sondern auch, weil es das erste Modell ist, das maßgeblich an seiner eigenen Erstellung beteiligt war.
GPT-5.3-Codex stellt einen grundlegenden Wandel von einem Code-Schreibwerkzeug zu einem interaktiven KI-Mitarbeiter dar, der in der Lage ist, langfristige, reale technische Aufgaben über das gesamte Spektrum professioneller Computeraufgaben hinweg zu bewältigen.
Was unterscheidet GPT-5.3-Codex?
Ein echtes Agentenmodell
Im Gegensatz zu traditionellen Programmierassistenten, die lediglich Code-Snippets generieren, ist GPT-5.3-Codex als ein "Agentenmodell" konzipiert. Das bedeutet, dass es:
- Kontext beibehalten über lange laufende Aufgaben, die Stunden oder sogar Tage dauern
- Werkzeuge autonom nutzen, einschließlich Befehlszeilenschnittstellen, Dateisysteme und Entwicklungsumgebungen
- Sich anpassen und iterieren basierend auf Echtzeit-Feedback, ohne den Faden zu verlieren
- Komplexe, mehrstufige Workflows handhaben, die Recherche, Planung und Ausführung erfordern
Selbst-Erstellungs-Erfolg
Der vielleicht bemerkenswerteste Aspekt von GPT-5.3-Codex ist, dass das Codex-Team frühe Versionen des Modells verwendet hat, um:
- Seinen eigenen Trainingsprozess zu debuggen
- Seine eigene Bereitstellung zu verwalten
- Testergebnisse und Bewertungen zu diagnostizieren
- Die Infrastruktur für die endgültige Version zu optimieren
Dieser selbstreferenzielle Entwicklungszyklus demonstriert, wie KI beginnt, ihre eigene Verbesserung zu beschleunigen – ein Meilenstein, der OpenAI-Forscher nach eigenen Angaben "überwältigt hat, wie sehr Codex seine eigene Entwicklung beschleunigen konnte."
Leistungsverbesserungen
GPT-5.3-Codex ist 25% schneller als sein Vorgänger (GPT-5.2-Codex), dank Verbesserungen in der Infrastruktur und dem Inferenz-Stack von OpenAI. Diese Geschwindigkeitsverbesserung ermöglicht eine reaktionsschnellere Echtzeit-Zusammenarbeit und schnellere Iterationszyklen.
Benchmark-Leistung: Die Daten
GPT-5.3-Codex erzielt eine State-of-the-Art-Leistung in mehreren Schlüssel-Benchmarks, die Codierung, agentenbasierte Fähigkeiten und reale Computernutzung messen.
SWE-Bench Pro
SWE-Bench Pro ist eine strenge Bewertung von realem Software-Engineering, die vier Programmiersprachen (Python, JavaScript, TypeScript und Go) umfasst. Im Gegensatz zu seinem Vorgänger (SWE-Bench Verified), der nur Python testete, ist SWE-Bench Pro so konzipiert, dass er widerstandsfähiger gegen Kontamination und branchenrelevanter ist.
Terminal-Bench 2.0
Die 13,3% Verbesserung bei Terminal-Bench 2.0 ist besonders signifikant. Dieser Benchmark misst die Terminalfähigkeiten, die ein Codierungsagent benötigt – Navigieren in Dateisystemen, Ausführen von Befehlen und Verwalten von Entwicklungs-Workflows. Bemerkenswert ist, dass GPT-5.3-Codex dies mit weniger Token als jedes frühere Modell erreicht, was es effizienter macht.
OSWorld-Verified
Der 26,5% Sprung bei OSWorld-Verified demonstriert dramatisch verbesserte Computer-Nutzungsfähigkeiten. OSWorld ist ein agentenbasierter Computer-Nutzungs-Benchmark, bei dem Agenten Produktivitätsaufgaben in einer visuellen Desktop-Umgebung erledigen müssen. Diese massive Verbesserung zeigt, dass GPT-5.3-Codex reale Schnittstellen weitaus besser navigieren kann als frühere Modelle.
Mehr als nur Code: Ein Allzweck-Agent
Während GPT-5.3-Codex sich in der Programmierung auszeichnet, gehen seine Fähigkeiten weit über die Codegenerierung hinaus. OpenAI positioniert es als einen Agenten, der "fast alles bewältigen kann, was Entwickler und Fachleute auf einem Computer tun können."
Unterstützung des Software-Lebenszyklus
Das Modell ist so konzipiert, dass es den gesamten Softwareentwicklungslebenszyklus unterstützt:
- Debugging - Identifizieren und Beheben von Fehlern
- Bereitstellung - Verwalten von Releases und Infrastruktur
- Überwachung - Verfolgen von Leistung und Metriken
- Schreiben von PRDs - Produktspezifikationsdokumente
- Bearbeiten von Texten - Dokumentation und Marketingtexte
- Nutzerforschung - Analysieren von Nutzer-Feedback
- Testen - Schreiben und Ausführen von Testsuiten
- Metrikenanalyse - Datengesteuerte Entscheidungsfindung
Fähigkeiten für Wissensarbeit
Auf GDPval (OpenAIs Bewertung von 2025 zur Messung der Leistung bei Wissensarbeitsaufgaben in 44 Berufen) entspricht die Leistung von GPT-5.3-Codex der von GPT-5.2. Dies umfasst Aufgaben wie:
- Erstellen von Foliensätzen und Präsentationen
- Analysieren von Daten in Tabellenkalkulationen
- Dokumentenmanagement und -organisation
Beispiel Webentwicklung
Um die Fähigkeiten des Modells zu demonstrieren, bat OpenAI GPT-5.3-Codex, zwei vollständige Spiele von Grund auf neu zu erstellen:
- Ein Rennspiel (Version 2 des Codex-App-Startspiels)
Unter Verwendung nur einer "Webspiel entwickeln"-Fähigkeit und generischer Folgeaufforderungen wie "Behebe den Fehler" oder "Verbessere das Spiel" iterierte GPT-5.3-Codex autonom über Millionen von Token und erstellte hochfunktionale, ausgefeilte Spiele.
Besseres Intentionsverständnis
Im Vergleich zu GPT-5.2-Codex versteht das neue Modell die Benutzerabsicht beim Erstellen von Websites besser. Einfache oder nicht ausreichend spezifizierte Prompts führen jetzt standardmäßig zu Websites mit:
- Sinnvollen Standardeinstellungen
- Produktionsreifen Funktionen
Wenn es beispielsweise gebeten wurde, eine Preisgestaltungs-Landingpage zu erstellen, zeigte GPT-5.3-Codex automatisch den Jahresplan als ermäßigten monatlichen Preis an (wodurch der Rabatt deutlich wurde) und erstellte ein automatisch überblendendes Testimonial-Karussell mit drei verschiedenen Benutzerzitaten – was zu einem vollständigeren und ausgefeilteren Design führte.
Interaktive Zusammenarbeit
Eine der wichtigsten Verbesserungen der Benutzererfahrung ist die Möglichkeit, das Modell während der Arbeit zu steuern.
Echtzeit-Interaktion
Anstatt auf eine endgültige Ausgabe zu warten, können Benutzer jetzt:
- Fragen während der Ausführung stellen
- Verschiedene Ansätze diskutieren
- Auf bestimmte Lösungen zusteuern
- Feedback mitten in der Aufgabe geben
GPT-5.3-Codex erläutert, was es tut, reagiert auf Feedback und hält die Benutzer von Anfang bis Ende auf dem Laufenden. Dies kann in der Codex-App unter Einstellungen > Allgemein > Folgeverhalten aktiviert werden.
Dies verwandelt die Erfahrung vom Erteilen von Befehlen an eine Maschine in die Zusammenarbeit mit einem Teamkollegen – ein grundlegender Wandel in der Art und Weise, wie Menschen mit KI-Systemen interagieren.
Cybersecurity-Fähigkeiten und Sicherheit
GPT-5.3-Codex ist das erste Modell, das OpenAI im Rahmen seines Preparedness Framework als "High capability" für Cybersicherheitsaufgaben einstuft. Es ist auch das erste Modell, das direkt darauf trainiert wurde, Software-Schwachstellen zu identifizieren.
Dual-Use-Natur
Da Cybersicherheit von Natur aus Dual-Use ist (nützlich sowohl für die Verteidigung als auch für den Angriff), verfolgt OpenAI einen vorsorglichen Ansatz:
- Keine definitiven Beweise, dass es Cyberangriffe End-to-End automatisieren kann
- Bereitstellung eines umfassenden Cybersicherheits-Sicherheitsstacks
- Implementierung von Sicherheitsschulungen und automatisierter Überwachung
- Erforderlicher vertrauenswürdiger Zugriff für erweiterte Funktionen
Trusted Access for Cyber
OpenAI startet Trusted Access for Cyber, ein Pilotprogramm, um:
- Die Cybersicherheitsforschung zu beschleunigen
- Verteidigern zuerst Werkzeuge zu geben
- Die Widerstandsfähigkeit des Ökosystems zu unterstützen
$10 Millionen Zusage
Aufbauend auf einem $1 Millionen Cybersecurity Grant Program von 2023, verpflichtet sich OpenAI zu $10 Millionen an API-Guthaben, um die Cyberabwehr zu beschleunigen, insbesondere für:
- Kritische Infrastruktursysteme
- Gutgläubige Sicherheitsforschung
Aardvark Security Agent
OpenAI erweitert die private Beta von Aardvark, seinem Sicherheitsforschungsagenten, als erstes Angebot in seiner Suite von Codex-Sicherheitsprodukten und -Tools. Sie arbeiten auch mit Open-Source-Maintainern zusammen, um kostenlose Codebase-Scans für weit verbreitete Projekte wie Next.js bereitzustellen.
Wie OpenAI Codex verwendet hat, um Codex zu erstellen
Die Entwicklung von GPT-5.3-Codex bietet eine faszinierende Fallstudie zur KI-beschleunigten Forschung.
Anwendungsfälle des Forschungsteams
Das Forschungsteam verwendete frühe Versionen von GPT-5.3-Codex, um:
- Die Trainingsläufe für die Veröffentlichung zu überwachen und zu debuggen
- Muster während des gesamten Trainingsverlaufs zu verfolgen
- Eine tiefe Analyse der Interaktionsqualität bereitzustellen
- Korrekturen vorzuschlagen und umfangreiche Anwendungen für menschliche Forscher zu erstellen
- Genau zu verstehen, wie sich das Verhalten des Modells von früheren Modellen unterschied
Anwendungsfälle des Engineering-Teams
Das Engineering-Team verwendete Codex, um:
- Die Harness für GPT-5.3-Codex zu optimieren und anzupassen
- Kontext-Rendering-Bugs zu identifizieren, die Benutzer betreffen
- Die Ursache für niedrige Cache-Hit-Raten zu finden
- GPU-Cluster dynamisch zu skalieren, um sich an Verkehrsstöße anzupassen
- Die Latenz während des Starts stabil zu halten
Anwendungsfälle der Datenwissenschaft
Während der Alpha-Tests arbeitete ein Data Scientist mit GPT-5.3-Codex zusammen, um:
- Regex-Klassifikatoren zu erstellen, um die Häufigkeit von Klarstellungen, Benutzerantworten und Aufgabenfortschritten abzuschätzen
- Diese Klassifikatoren skalierbar über alle Sitzungsprotokolle auszuführen
- Neue Datenpipelines zu erstellen und Ergebnisse umfangreicher zu visualisieren als mit Standard-Dashboarding-Tools
- Ergebnisse gemeinsam zu analysieren, wobei Codex wichtige Erkenntnisse über Tausende von Datenpunkten in weniger als drei Minuten zusammenfasst
Produktivitätssteigerung
Das Ergebnis? Menschen, die mit Codex bauten, waren glücklicher, da der Agent:
- Ihre Absicht besser verstand
- Mehr Fortschritte pro Runde machte
- Weniger klärende Fragen stellte
Verfügbarkeit und Preise
Wie man darauf zugreift
GPT-5.3-Codex ist ab sofort verfügbar für zahlende ChatGPT-Benutzer auf allen Codex-Oberflächen:
- Desktop-App (macOS und Windows)
- Befehlszeilenschnittstelle (CLI)
- IDE-Erweiterungen (VS Code, JetBrains usw.)
Abonnementpläne
Für eine begrenzte Zeit erhalten zahlende Pläne doppelte der normalen Ratenbegrenzungen.
API-Preise
Zum Zeitpunkt der Markteinführung hat OpenAI keine offiziellen API-Preise veröffentlicht für GPT-5.3-Codex. Der API-Zugang wird als "bald verfügbar" und "in den folgenden Wochen kommend" beschrieben.
Als Referenz sind die aktuellen API-Preise für das Vorgängermodell (GPT-5.2-Codex):
Infrastruktur
GPT-5.3-Codex wurde gemeinsam für NVIDIA GB200 NVL72-Systeme entwickelt, mit diesen trainiert und auf diesen bereitgestellt – ein Beweis für die enge Zusammenarbeit zwischen OpenAI und NVIDIA bei der Erweiterung der Grenzen der KI-Fähigkeiten.
Vergleich mit Wettbewerbern
Die Veröffentlichung von GPT-5.3-Codex erfolgte nur wenige Minuten nach der Ankündigung von Claude Opus 4.6 durch Anthropic, wodurch ein sofortiger Vergleich zwischen den beiden Modellen entstand.
Stärken von GPT-5.3-Codex
- Terminal-Bench 2.0: 77,3 vs. Opus 4.6's 65,4 (+18,6% Vorteil)
- Designphilosophie "Hohe Zuverlässigkeit, geringe Varianz"
- Selbsterstellungsfähigkeit (half bei der eigenen Erstellung)
- Erste Cybersicherheitsklassifizierung "High capability"
Stärken von Claude Opus 4.6
- 1 Million Token Kontextfenster (deutlich größer)
- Agent Teams Kollaborative Funktionalität
- Breitere Vielseitigkeit in verschiedenen Wissensarbeitsszenarien
- Höhere Kreativitätstemperatur (mehr Persönlichkeit)
Designphilosophie Unterschiede
Das größere Bild
GPT-5.3-Codex stellt mehr als nur ein inkrementelles Upgrade dar – es ist ein Schritt hin zu Allzweck-Agenten, die über das gesamte Spektrum realer technischer Arbeit hinweg denken, bauen und ausführen können.
Vom Code-Agent zum Computer-Agent
OpenAI formuliert diese Entwicklung explizit: "Codex geht über das Schreiben von Code hinaus und verwendet ihn als Werkzeug, um einen Computer zu bedienen und die Arbeit End-to-End zu erledigen."
Dies ist ein tiefgreifender Wandel. Was als Fokus auf "der beste Codierungsagent" begann, ist zur Grundlage für einen allgemeineren Mitarbeiter am Computer geworden – wodurch sowohl erweitert wird, wer bauen kann, als auch was mit KI möglich ist.
Beschleunigung der KI-Entwicklung
Die Tatsache, dass GPT-5.3-Codex geholfen hat, sich selbst zu erstellen, ist eine Vorschau auf das, was noch kommt. Wie OpenAI-Forscher feststellen, "beschreiben viele Forscher und Ingenieure bei OpenAI ihren Job heute als grundlegend anders als noch vor zwei Monaten."
Dies deutet darauf hin, dass wir in eine Periode beschleunigender Erträge in der KI-Entwicklung eintreten, in der jede Generation von Modellen dazu beiträgt, die nächste zu bauen – wodurch möglicherweise Zeitpläne von Jahren auf Monate verkürzt werden.
Implikationen für Entwickler
Für Softwareentwickler sind die Implikationen erheblich:
- Schnellere Entwicklungszyklen - KI übernimmt mehr von der Routinearbeit
- Höherwertige Abstraktion - Entwickler können sich auf Architektur und Design konzentrieren
- Interaktive Zusammenarbeit - Weniger wie die Verwendung eines Werkzeugs, mehr wie die Zusammenarbeit mit einem Teamkollegen
- Neue Fähigkeiten - Aufgaben, die zuvor spezielles Wissen erforderten, sind jetzt zugänglich
Implikationen für Unternehmen
Für Unternehmen stellt GPT-5.3-Codex Folgendes dar:
- Erhöhte Produktivität - Mehr Arbeit wird in weniger Zeit erledigt
- Niedrigere Barrieren - Weniger spezielle Fähigkeiten für bestimmte Aufgaben erforderlich
- Neue Sicherheitsüberlegungen - Die Cybersicherheitsklassifizierung "High capability" erfordert eine sorgfältige Governance
- Wettbewerbsvorteil - Frühe Einführung von leistungsstarker agentenbasierter KI
Fazit
GPT-5.3-Codex ist ein bahnbrechender Erfolg in der künstlichen Intelligenz. Es kombiniert:
- State-of-the-Art-Codierungsleistung
- Fortschrittliche agentenbasierte Fähigkeiten
- Interaktive Zusammenarbeit
- Selbstverbesserung (es hat geholfen, sich selbst zu erstellen)
Die Tatsache, dass es maßgeblich an seiner eigenen Erstellung beteiligt war, dient sowohl als technische Leistung als auch als Metapher für die Richtung, in die sich KI entwickelt. Da Modelle leistungsfähiger werden, sind sie nicht nur Werkzeuge, die wir verwenden – sie werden zu Partnern im kreativen und Entwicklungsprozess selbst.
Die gleichzeitige Veröffentlichung mit Claude Opus 4.6, nur wenige Minuten voneinander entfernt, unterstreicht die Intensität des Wettbewerbs im KI-Bereich. Aber noch wichtiger ist, dass sie signalisiert, dass wir in eine neue Phase der KI-Fähigkeiten eingetreten sind – eine Phase, in der Agenten komplexe, langfristige Aufgaben über das gesamte Spektrum professioneller Computerarbeit zuverlässig bewältigen können.
Wie OpenAI es formuliert: "Was als Fokus darauf begann, der beste Codierungsagent zu sein, ist zur Grundlage für einen allgemeineren Mitarbeiter am Computer geworden."
Die Frage ist jetzt nicht nur, was diese Modelle leisten können, sondern was wir mit ihnen bauen werden.
Quellen
Haftungsausschluss: Dieser Artikel basiert auf Informationen, die am 6. Februar 2026 verfügbar waren. Spezifikationen, Preise und Verfügbarkeit können sich ändern. Bitte konsultieren Sie die offizielle OpenAI-Dokumentation für die aktuellsten Informationen.