Wprowadzenie
5 lutego 2026 roku OpenAI ogłosiło GPT-5.3-Codex, swój najbardziej zaawansowany model kodowania agentowego do tej pory. Ta premiera stanowi znaczący kamień milowy w dziedzinie sztucznej inteligencji – nie tylko ze względu na imponujące możliwości techniczne, ale także dlatego, że jest to pierwszy model, który odegrał kluczową rolę w stworzeniu samego siebie.
reprezentuje fundamentalną zmianę od narzędzia do pisania kodu do interaktywnego współpracownika AI, zdolnego do obsługi długoterminowych, rzeczywistych zadań technicznych w pełnym spektrum profesjonalnych zadań komputerowych.
Co wyróżnia ?
Prawdziwy Model Agentowy
W przeciwieństwie do tradycyjnych asystentów kodowania, którzy po prostu generują fragmenty kodu, został zaprojektowany jako model „agentowy”. Oznacza to, że może:
- Utrzymywać kontekst w długotrwałych zadaniach, które trwają godzinami, a nawet dniami
- Autonomicznie korzystać z narzędzi, w tym interfejsów wiersza poleceń, systemów plików i środowisk programistycznych
- Dostosowywać się i iterować na podstawie informacji zwrotnych w czasie rzeczywistym, nie tracąc orientacji
- Obsługiwać złożone, wieloetapowe przepływy pracy, które wymagają badań, planowania i realizacji
Samodzielne Tworzenie
Być może najbardziej niezwykłym aspektem jest to, że zespół Codex wykorzystał wczesne wersje modelu do:
- Debugowania własnego procesu uczenia
- Zarządzania własnym wdrożeniem
- Diagnozowania wyników testów i ocen
- Optymalizacji infrastruktury pod kątem ostatecznej wersji
Ten autoreferencyjny cykl rozwoju pokazuje, jak sztuczna inteligencja zaczyna przyspieszać swój własny rozwój – kamień milowy, który, jak stwierdzili badacze OpenAI, wprawił ich w „osłupienie, jak bardzo Codex był w stanie przyspieszyć własny rozwój”.
Poprawa Wydajności
o 25% szybszy jest o 25% szybszy od swojego poprzednika (GPT-5.2-Codex), dzięki ulepszeniom w infrastrukturze i stosie wnioskowania OpenAI. Ta poprawa szybkości umożliwia bardziej responsywną współpracę w czasie rzeczywistym i szybsze cykle iteracji.
Wydajność Benchmarkowa: Dane
osiąga najnowocześniejsze wyniki w kilku kluczowych testach porównawczych, które mierzą możliwości kodowania, zdolności agentowe i rzeczywiste korzystanie z komputera.
SWE-Bench Pro
SWE-Bench Pro to rygorystyczna ocena rzeczywistego inżynieringu oprogramowania, obejmująca cztery języki programowania (Python, JavaScript, TypeScript i Go). W przeciwieństwie do swojego poprzednika (SWE-Bench Verified), który testował tylko Pythona, SWE-Bench Pro został zaprojektowany tak, aby był bardziej odporny na zanieczyszczenia i istotny dla branży.
Terminal-Bench 2.0
GPT-5.3-Codex w Terminal-Bench 2.0 jest szczególnie znacząca. Ten benchmark mierzy umiejętności terminalowe, których potrzebuje agent kodujący – nawigację po systemach plików, wykonywanie poleceń i zarządzanie przepływami pracy programistycznej. Warto zauważyć, że GPT-5.3-Codex osiąga to przy mniejszej liczbie tokenów niż jakikolwiek wcześniejszy model, co czyni go bardziej wydajnym.
OSWorld-Verified
GPT-5.3-Codex w OSWorld-Verified demonstruje znacznie ulepszone możliwości korzystania z komputera. OSWorld to benchmark agentowego korzystania z komputera, w którym agenci muszą wykonywać zadania zwiększające produktywność w wizualnym środowisku pulpitu. Ta ogromna poprawa pokazuje, że GPT-5.3-Codex radzi sobie z nawigacją po rzeczywistych interfejsach znacznie lepiej niż poprzednie modele.
Poza Kodem: Agent Ogólnego Przeznaczenia
Chociaż wyróżnia się programowaniem, jego możliwości wykraczają daleko poza generowanie kodu. OpenAI pozycjonuje go jako agenta, który może obsługiwać „niemal wszystko, co programiści i profesjonaliści mogą robić na komputerze”.
Wsparcie Cyklu Życia Oprogramowania
Model jest zbudowany do obsługi całego cyklu życia oprogramowania:
- Debugowanie - Identyfikacja i naprawa błędów
- Wdrażanie - Zarządzanie wydaniami i infrastrukturą
- Monitorowanie - Śledzenie wydajności i metryk
- Pisanie PRD - Dokumenty wymagań produktu
- Edycja tekstu - Dokumentacja i teksty marketingowe
- Badania użytkowników - Analiza opinii użytkowników
- Testowanie - Pisanie i uruchamianie pakietów testów
- Analiza metryk - Podejmowanie decyzji w oparciu o dane
Możliwości Pracy Umysłowej
W GPT-5.3-Codex (ocena OpenAI z 2025 roku, mierząca wydajność w zadaniach związanych z pracą umysłową w 44 zawodach), GPT-5.3-Codex dorównuje wydajnością GPT-5.2. Obejmuje to zadania takie jak:
- Analiza danych w arkuszach kalkulacyjnych
- Zarządzanie i organizacja dokumentów
Przykład Tworzenia Stron Internetowych
Aby zademonstrować możliwości modelu, OpenAI poprosiło o zbudowanie od podstaw dwóch kompletnych gier:
- Gra wyścigowa (wersja 2 gry uruchamiającej aplikację Codex)
Używając tylko umiejętności „stworzenia gry internetowej” i ogólnych monitów uzupełniających, takich jak „napraw błąd” lub „ulepsz grę”, iterował autonomicznie przez miliony tokenów, budując wysoce funkcjonalne, dopracowane gry.
Lepsze Rozumienie Intencji
W porównaniu z GPT-5.2-Codex, nowy model lepiej rozumie intencje użytkownika podczas budowania stron internetowych. Proste lub niedoprecyzowane monity domyślnie prowadzą do stron z:
- Sensownymi ustawieniami domyślnymi
- Funkcjami gotowymi do produkcji
Na przykład, poproszony o zbudowanie strony docelowej z cennikiem, automatycznie wyświetlił plan roczny jako obniżoną cenę miesięczną (wyraźnie wskazując rabat) i utworzył automatycznie przechodzącą karuzelę referencji z trzema różnymi cytatami użytkowników – co zaowocowało bardziej kompletnym i dopracowanym projektem.
Interaktywna Współpraca
Jednym z najważniejszych ulepszeń w zakresie doświadczenia użytkownika jest możliwość sterowania modelem podczas jego pracy.
Interakcja w Czasie Rzeczywistym
Zamiast czekać na ostateczny wynik, użytkownicy mogą teraz:
- Zadawać pytania podczas wykonywania
- Kierować w stronę konkretnych rozwiązań
- Przekazywać informacje zwrotne w trakcie zadania
Ustawienia > Ogólne > Zachowanie uzupełniające omawia, co robi, odpowiada na informacje zwrotne i informuje użytkowników od początku do końca. Można to włączyć w aplikacji Codex poprzez Ustawienia > Ogólne > Zachowanie uzupełniające.
To przekształca doświadczenie z wydawania poleceń maszynie we współpracę z członkiem zespołu – fundamentalna zmiana w sposobie, w jaki ludzie wchodzą w interakcje z systemami AI.
Możliwości i Bezpieczeństwo w Zakresie Cyberbezpieczeństwa
pierwszy model, który OpenAI klasyfikuje jako „Wysoka zdolność” w odniesieniu do zadań związanych z cyberbezpieczeństwem to pierwszy model, który OpenAI klasyfikuje jako „Wysoka zdolność” w odniesieniu do zadań związanych z cyberbezpieczeństwem w ramach swojego Frameworku Gotowości. Jest to również pierwszy model bezpośrednio szkolony w celu identyfikacji luk w oprogramowaniu.
Natura Podwójnego Zastosowania
Ponieważ cyberbezpieczeństwo jest z natury podwójnego zastosowania (przydatne zarówno do obrony, jak i ataku), OpenAI przyjmuje ostrożne podejście:
- Brak ostatecznych dowodów, że może zautomatyzować ataki cybernetyczne od początku do końca
- Wdrażanie kompleksowego stosu bezpieczeństwa cybernetycznego
- Wprowadzanie szkoleń w zakresie bezpieczeństwa i zautomatyzowanego monitoringu
- Wymaganie zaufanego dostępu do zaawansowanych możliwości
Zaufany Dostęp dla Cyberbezpieczeństwa
OpenAI uruchamia Zaufany Dostęp dla Cyberbezpieczeństwa, program pilotażowy mający na celu:
- Przyspieszenie badań nad obroną cybernetyczną
- Dostarczanie narzędzi obrońcom w pierwszej kolejności
- Wspieranie odporności ekosystemu
Zobowiązanie 10 Milionów Dolarów
Opierając się na Programie Dotacji na Cyberbezpieczeństwo o wartości 1 miliona dolarów z 2023 roku, OpenAI przeznacza 10 milionów dolarów w kredytach API na przyspieszenie obrony cybernetycznej, szczególnie dla:
- Oprogramowania o otwartym kodzie źródłowym
- Systemów infrastruktury krytycznej
- Badań w zakresie bezpieczeństwa prowadzonych w dobrej wierze
Agent Bezpieczeństwa Aardvark
OpenAI rozszerza prywatną wersję beta Aardvark, swojego agenta ds. badań nad bezpieczeństwem, jako pierwszą ofertę w swoim pakiecie produktów i narzędzi Codex Security. Współpracują również z opiekunami open-source, aby zapewnić bezpłatne skanowanie kodu dla szeroko stosowanych projektów, takich jak Next.js.
Jak OpenAI Wykorzystało Codex do Stworzenia Codex
Rozwój stanowi fascynujące studium przypadku badań przyspieszonych przez sztuczną inteligencję.
Przypadki Użycia Zespołu Badawczego
Zespół badawczy wykorzystał wczesne wersje do:
- Monitorowania i debugowania przebiegu szkolenia dla wydania
- Śledzenia wzorców w trakcie całego szkolenia
- Zapewniania dogłębnej analizy jakości interakcji
- Proponowania poprawek i budowania bogatych aplikacji dla ludzkich badaczy
- Precyzyjnego zrozumienia, jak zachowanie modelu różniło się od poprzednich modeli
Przypadki Użycia Zespołu Inżynieryjnego
Zespół inżynieryjny wykorzystał Codex do:
- Optymalizacji i dostosowania szkieletu dla <a2>GPT-5.3-Codex</a2>
- Identyfikacji błędów renderowania kontekstu wpływających na użytkowników
- Określania pierwotnej przyczyny niskich wskaźników trafień w pamięci podręcznej
- Dynamicznego skalowania klastrów GPU w celu dostosowania się do wzrostu natężenia ruchu
- Utrzymywania stabilnego opóźnienia podczas uruchamiania
Przypadki Użycia Nauki o Danych
Podczas testów alfa naukowiec danych pracował z nad:
- Budowaniem klasyfikatorów regex do oszacowania częstotliwości wyjaśnień, odpowiedzi użytkowników i postępów w zadaniach
- Uruchamianiem tych klasyfikatorów w sposób skalowalny na wszystkich dziennikach sesji
- Budowaniem nowych potoków danych i wizualizowaniem wyników w sposób bogatszy niż standardowe narzędzia do tworzenia pulpitów nawigacyjnych
- Wspólnej analizy wyników, z Codexem podsumowującym kluczowe spostrzeżenia na podstawie tysięcy punktów danych w mniej niż trzy minuty
Wzrost Produktywności
W rezultacie osoby budujące z Codex były szczęśliwsze, ponieważ agent:
- Lepiej rozumiał ich intencje
- Robił większe postępy na turę
- Zadawał mniej pytań wyjaśniających
Dostępność i Ceny
Jak Uzyskać Dostęp
dostępny natychmiast jest dostępny natychmiast dla płacących użytkowników ChatGPT na wszystkich powierzchniach Codex:
- Aplikacja na komputery stacjonarne (macOS i Windows)
- Interfejs wiersza poleceń (CLI)
- Rozszerzenia IDE (VS Code, JetBrains itp.)
Plany Subskrypcji
Przez ograniczony czas płatne plany będą otrzymywać podwójne normalne limity stawek.
Ceny API
Od momentu premiery OpenAI nie opublikowało oficjalnych cen API dla GPT-5.3-Codex. Dostęp do API jest opisywany jako „wdrażany wkrótce” i „w nadchodzących tygodniach”.
Dla odniesienia, obecne ceny API dla poprzedniego modelu (GPT-5.2-Codex) to:
Infrastruktura
systemach NVIDIA GB200 NVL72 został współprojektowany, przeszkolony i jest obsługiwany na systemach NVIDIA GB200 NVL72 — co świadczy o bliskiej współpracy między OpenAI i NVIDIA w przesuwaniu granic możliwości AI.
Porównanie z Konkurencją
Premiera Claude Opus 4.6 nastąpiła zaledwie kilka minut po ogłoszeniu przez Anthropic Claude Opus 4.6, co natychmiast wywołało porównanie między tymi dwoma modelami.
Mocne Strony GPT-5.3-Codex
- Terminal-Bench 2.0: 77,3 vs 65,4 Opus 4.6 (przewaga +18,6%)
- Filozofia projektowania „Wysoka niezawodność, niska wariancja”
- Możliwość samodzielnego tworzenia (pomógł się stworzyć)
- Pierwsza klasyfikacja cyberbezpieczeństwa „Wysoka zdolność”
Mocne Strony Claude Opus 4.6
- Okno kontekstowe o pojemności 1 miliona tokenów (znacznie większe)
- Zespoły Agentów funkcjonalność współpracy
- Szersza wszechstronność w scenariuszach pracy umysłowej
- Wyższa temperatura kreatywności (więcej osobowości)
Różnice w Filozofii Projektowania
Szerszy Obraz
agentów ogólnego przeznaczenia, którzy mogą rozumować, budować i wykonywać reprezentuje więcej niż tylko stopniowe ulepszenie – to krok w kierunku agentów ogólnego przeznaczenia, którzy mogą rozumować, budować i wykonywać w pełnym spektrum rzeczywistych prac technicznych.
Od Agenta Kodowania do Agenta Komputerowego
OpenAI wyraźnie przedstawia tę ewolucję: „Codex wykracza poza pisanie kodu, aby wykorzystywać go jako narzędzie do obsługi komputera i wykonywania pracy od początku do końca”.
To głęboka zmiana. To, co zaczęło się jako skupienie się na byciu „najlepszym agentem kodowania”, stało się podstawą bardziej ogólnego współpracownika na komputerze – rozszerzając zarówno to, kto może budować, jak i to, co jest możliwe dzięki AI.
Przyspieszenie Rozwoju AI
Fakt, że pomógł się zbudować, jest zapowiedzią tego, co nadejdzie. Jak zauważają badacze OpenAI, „wielu badaczy i inżynierów w OpenAI opisuje dziś swoją pracę jako zasadniczo różną od tego, czym była zaledwie dwa miesiące temu”.
Sugeruje to, że wkraczamy w okres rosnących zysków w rozwoju AI, gdzie każda generacja modeli pomaga budować następną – potencjalnie skracając harmonogramy z lat do miesięcy.
Implikacje dla Programistów
Dla programistów implikacje są znaczące:
- Szybsze cykle rozwoju - AI obsługuje więcej rutynowych prac
- Abstrakcja wyższego poziomu - Programiści mogą skupić się na architekturze i projektowaniu
- Interaktywna współpraca - Mniej jak używanie narzędzia, bardziej jak praca z członkiem zespołu
- Nowe możliwości - Zadania, które wcześniej wymagały specjalistycznej wiedzy, są teraz dostępne
Implikacje dla Przedsiębiorstw
Dla przedsiębiorstw reprezentuje:
- Wzrost produktywności - Więcej pracy wykonuje się w krótszym czasie
- Niższe bariery - Mniej specjalistycznych umiejętności potrzebnych do niektórych zadań
- Nowe względy bezpieczeństwa - Klasyfikacja cyberbezpieczeństwa „Wysoka zdolność” wymaga starannego zarządzania
- Przewaga konkurencyjna - Wczesne przyjęcie potężnej agentowej AI
Wniosek
to przełomowe osiągnięcie w dziedzinie sztucznej inteligencji. Łączy:
- Najnowocześniejszą wydajność kodowania
- Zaawansowane możliwości agentowe
- Samodoskonalenie (pomógł się zbudować)
- Rzeczywiste korzystanie z komputera
Fakt, że odegrał kluczową rolę w swoim własnym tworzeniu, służy zarówno jako osiągnięcie techniczne, jak i metafora kierunku, w którym zmierza AI. W miarę jak modele stają się coraz bardziej wydajne, są nie tylko narzędziami, których używamy – stają się partnerami w samym procesie twórczym i rozwoju.
Jednoczesna premiera z Claude Opus 4.6, zaledwie kilka minut po sobie, podkreśla intensywność konkurencji w przestrzeni AI. Co ważniejsze, sygnalizuje, że weszliśmy w nową fazę możliwości AI – w której agenci mogą niezawodnie obsługiwać złożone, długoterminowe zadania w pełnym spektrum profesjonalnych prac komputerowych.
Jak ujął to OpenAI: „To, co zaczęło się jako skupienie się na byciu najlepszym agentem kodowania, stało się podstawą bardziej ogólnego współpracownika na komputerze”.
Pytanie teraz nie brzmi tylko, co te modele mogą zrobić – brzmi, co zdecydujemy się z nimi zbudować.
Źródła
Zastrzeżenie: Ten artykuł jest oparty na informacjach dostępnych na dzień 6 lutego 2026 roku. Specyfikacje, ceny i dostępność mogą ulec zmianie. Proszę odnieść się do oficjalnej dokumentacji OpenAI, aby uzyskać najbardziej aktualne informacje.