Uvod

5. februarja 2026 je OpenAI napovedal GPT-5.3-Codex, svoj najnaprednejši agentski model za kodiranje do danes. Ta objava označuje pomemben mejnik v umetni inteligenci – ne le zaradi svojih impresivnih tehničnih zmogljivosti, temveč tudi zato, ker je to prvi model, ki je bil ključen pri ustvarjanju samega sebe.

predstavlja temeljni premik od orodja za pisanje kode k interaktivnemu sodelavcu z umetno inteligenco, ki je sposoben obvladovati dolgoročno, resnično tehnično delo v celotnem spektru profesionalnih računalniških nalog.

Kaj dela drugačnega?

Pravi agentski model

Za razliko od tradicionalnih pomočnikov pri kodiranju, ki preprosto ustvarjajo odlomke kode, je zasnovan kot "agentski" model. To pomeni, da lahko:

Ohranja kontekst pri dolgotrajnih nalogah, ki trajajo ure ali celo dneve

Samostojno uporablja orodja, vključno z vmesniki ukazne vrstice, datotečnimi sistemi in razvojnimi okolji

Se prilagaja in ponavlja na podlagi povratnih informacij v realnem času, ne da bi izgubil svoj položaj

Obravnava kompleksne večstopenjske poteke dela, ki zahtevajo raziskave, načrtovanje in izvedbo

Dosežek samogradnje

Morda je najbolj izjemen vidik ta, da je ekipa Codex uporabila zgodnje različice modela za:

Odpravljanje napak v lastnem procesu usposabljanja

Upravljanje lastne uvedbe

Diagnosticiranje rezultatov testov in ocen

Optimiziranje infrastrukture za končno različico

Ta samoreferenčni razvojni cikel kaže, kako umetna inteligenca začenja pospeševati lastno izboljševanje – mejnik, ki so ga raziskovalci OpenAI opisali kot, da so bili »navdušeni nad tem, kako zelo je Codex lahko pospešil svoj razvoj.«

Izboljšave učinkovitosti

25 % hitrejši je 25 % hitrejši od svojega predhodnika (GPT-5.2-Codex), zahvaljujoč izboljšavam v infrastrukturi in inferenčnem skladu OpenAI. Ta izboljšava hitrosti omogoča bolj odzivno sodelovanje v realnem času in hitrejše cikle ponavljanja.

Primerjalna uspešnost: Podatki

dosega najsodobnejšo zmogljivost v več ključnih primerjalnih testih, ki merijo kodiranje, agentske zmogljivosti in dejansko uporabo računalnika.

SWE-Bench Pro

SWE-Bench Pro je natančna ocena resničnega programskega inženiringa, ki zajema štiri programske jezike (Python, JavaScript, TypeScript in Go). Za razliko od svojega predhodnika (SWE-Bench Verified), ki je testiral samo Python, je SWE-Bench Pro zasnovan tako, da je bolj odporen proti kontaminaciji in ustrezen industriji.

Terminal-Bench 2.0

GPT-5.3-Codex na Terminal-Bench 2.0 je še posebej pomembno. Ta primerjalni test meri terminalske veščine, ki jih potrebuje agent za kodiranje – navigacija po datotečnih sistemih, izvajanje ukazov in upravljanje razvojnih potekov dela. Pomembno je, da GPT-5.3-Codex to dosega z manj žetoni kot kateri koli prejšnji model, zaradi česar je učinkovitejši.

OSWorld-Verified

GPT-5.3-Codex na OSWorld-Verified kaže na izjemno izboljšane zmogljivosti uporabe računalnika. OSWorld je agentski primerjalni test uporabe računalnika, kjer morajo agenti opravljati naloge produktivnosti v vizualnem namiznem okolju. Ta ogromna izboljšava kaže, da je GPT-5.3-Codex veliko boljši pri navigaciji po resničnih vmesnikih kot prejšnji modeli.

Onkraj kode: Agent za splošne namene

Medtem ko je odličen pri programiranju, njegove zmogljivosti presegajo generiranje kode. OpenAI ga postavlja kot agenta, ki lahko obvlada "skoraj vse, kar lahko razvijalci in strokovnjaki počnejo na računalniku."

Podpora življenjskemu ciklu programske opreme

Model je zasnovan za podporo celotnemu življenjskemu ciklu razvoja programske opreme:

Odpravljanje napak - Iskanje in odpravljanje napak

Uvajanje - Upravljanje izdaj in infrastrukture

Spremljanje - Sledenje uspešnosti in meritvam

Pisanje PRD-jev - Dokumenti o zahtevah izdelka

Urejanje besedila - Dokumentacija in marketinško besedilo

Uporabniška raziskava - Analiza povratnih informacij uporabnikov

Testiranje - Pisanje in izvajanje testnih paketov

Analiza meritev - Sprejemanje odločitev na podlagi podatkov

Zmogljivosti znanja

Na GPT-5.3-Codex (ocena OpenAI iz leta 2025, ki meri uspešnost pri nalogah znanja v 44 poklicih) se GPT-5.3-Codex ujema z uspešnostjo GPT-5.2. To vključuje naloge, kot so:

Ustvarjanje diapozitivov in predstavitev

Analiza podatkov v preglednicah

Upravljanje in organizacija dokumentov

Raziskave in sinteza

Primer spletnega razvoja

Za prikaz zmogljivosti modela je OpenAI prosil , da iz nič ustvari dve popolni igri:

Dirkalna igra (različica 2 igre ob lansiranju aplikacije Codex)

Potapljaška igra

Z uporabo samo veščine "razvij spletno igro" in splošnih nadaljnjih pozivov, kot je "popravi napako" ali "izboljšaj igro," je samostojno ponavljal milijone žetonov in ustvaril zelo funkcionalne, dodelane igre.

Boljše razumevanje namena

V primerjavi z novi model bolje razume uporabnikov namen pri gradnji spletnih mest. Preprosti ali premalo določeni pozivi zdaj privzeto vodijo do spletnih mest z:

Več funkcionalnosti

Smiselne privzete vrednosti

Funkcije, pripravljene za produkcijo

Na primer, ko so ga prosili, da ustvari ciljno stran s cenami, je samodejno prikazal letni načrt kot znižano mesečno ceno (s čimer je znižanje jasno razvidno) in ustvaril samodejno prehajajoč vrtiljak s pričevanji s tremi različnimi uporabniškimi citati – kar je povzročilo bolj popolno in dodelano zasnovo.

Interaktivno sodelovanje

Ena najpomembnejših izboljšav uporabniške izkušnje je možnost usmerjanja modela med delom.

Interakcija v realnem času

Namesto da bi čakali na končni izdelek, lahko uporabniki zdaj:

Postavljajo vprašanja med izvajanjem

Razpravljajo o različnih pristopih

Usmerjajo k določenim rešitvam

Posredujejo povratne informacije med nalogo

Settings > General > Follow-up behavior govori o tem, kaj počne, se odziva na povratne informacije in ohranja uporabnike v teku od začetka do konca. To lahko omogočite v aplikaciji Codex prek Settings > General > Follow-up behavior.

To spreminja izkušnjo iz dajanja ukazov stroju v sodelovanje s soigralcem – temeljna sprememba v načinu, kako ljudje interagirajo s sistemi umetne inteligence.

Zmogljivosti in varnost kibernetske varnosti

prvi model, ki ga OpenAI klasificira kot "Visoko zmogljivega" za naloge, povezane s kibernetsko varnostjo je prvi model, ki ga OpenAI klasificira kot "Visoko zmogljivega" za naloge, povezane s kibernetsko varnostjo v skladu s svojim Okvirjem za pripravljenost. Je tudi prvi model, ki je bil neposredno usposobljen za prepoznavanje ranljivosti programske opreme.

Narava dvojne rabe

Ker je kibernetska varnost inherentno dvojne rabe (koristna tako za obrambo kot za napad), OpenAI sprejema previdnostni pristop:

Ni dokončnih dokazov, da lahko avtomatizira kibernetske napade od začetka do konca

Uvajanje celovitega varnostnega sklada za kibernetsko varnost

Izvajanje varnostnega usposabljanja in avtomatiziranega spremljanja

Zahtevanje zaupnega dostopa za napredne zmogljivosti

Zaupen dostop za kibernetiko

OpenAI začenja Zaupen dostop za kibernetiko, pilotni program za:

Pospešitev raziskav kibernetske obrambe

Najprej zagotovitev orodij branilcem

Podpora odpornosti ekosistema

Zaveza v višini 10 milijonov dolarjev

Na podlagi programa donacij za kibernetsko varnost v višini 1 milijona dolarjev iz leta 2023 se OpenAI zavezuje 10 milijonov dolarjev v API dobroimetjih za pospešitev kibernetske obrambe, zlasti za:

Odprtokodna programska oprema

Sistemi kritične infrastrukture

Dobronamerne varnostne raziskave

Varnostni agent Aardvark

OpenAI širi zasebno beta različico Aardvark, svojega agenta za varnostne raziskave, kot prvo ponudbo v svojem naboru izdelkov in orodij Codex Security. Prav tako sodelujejo z vzdrževalci odprtokodne kode za brezplačno skeniranje kode za široko uporabljene projekte, kot je Next.js.

Kako je OpenAI uporabil Codex za gradnjo Codexa

Razvoj zagotavlja fascinantno študijo primera raziskav, ki jih pospešuje umetna inteligenca.

Primeri uporabe raziskovalne ekipe

Raziskovalna ekipa je uporabila zgodnje različice za:

Spremljanje in odpravljanje napak pri izvajanju usposabljanja za izdajo

Sledenje vzorcem skozi celoten potek usposabljanja

Zagotavljanje poglobljene analize o kakovosti interakcije

Predlaganje popravkov in ustvarjanje bogatih aplikacij za človeške raziskovalce

Natančno razumevanje, kako se je vedenje modela razlikovalo od prejšnjih modelov

Primeri uporabe inženirske ekipe

Inženirska ekipa je uporabila Codex za:

Optimiziranje in prilagajanje ogrodja za GPT-5.3-Codex

Prepoznavanje napak pri upodabljanju konteksta, ki vplivajo na uporabnike

Iskanje vzroka za nizko stopnjo zadetkov v predpomnilniku

Dinamično skaliranje gruč GPU-jev za prilagajanje povečanemu prometu

Ohranjanje stabilne zakasnitve med lansiranjem

Primeri uporabe znanosti o podatkih

Med alfa testiranjem je znanstvenik podatkov sodeloval z za:

Ustvarjanje regex klasifikatorjev za oceno pogostosti pojasnil, odzivov uporabnikov in napredka pri nalogah

Izvajanje teh klasifikatorjev razširljivo nad vsemi dnevniki sej

Ustvarjanje novih podatkovnih cevovodov in vizualizacija rezultatov bogatejše od standardnih orodij za nadzorne plošče

So-analiza rezultatov, pri čemer Codex povzema ključne vpoglede nad tisočimi podatkovnimi točkami v manj kot treh minutah

Povečanje produktivnosti

Rezultat? Ljudje, ki so gradili s Codexom, so bili srečnejši, saj je agent:

Bolje razumel njihov namen

Napredoval več na potezo

Postavljal manj pojasnilnih vprašanj

Razpoložljivost in cene

Kako dostopati

na voljo takoj je na voljo takoj za plačljive uporabnike ChatGPT na vseh površinah Codex:

Namizna aplikacija (macOS in Windows)

Vmesnik ukazne vrstice (CLI)

Razširitve IDE (VS Code, JetBrains itd.)

Spletni vmesnik

Naročniški načrti

Za omejen čas bodo plačljivi načrti prejeli dvojne običajne omejitve hitrosti.

Cene API-ja

Ob lansiranju GPT-5.3-Codex za GPT-5.3-Codex. Dostop do API-ja je opisan kot "kmalu na voljo" in "prihaja v naslednjih tednih."

Za referenco, trenutne cene API-ja za prejšnji model (GPT-5.2-Codex) so:

Infrastruktura

sistemih NVIDIA GB200 NVL72 je bil sočasno zasnovan, usposobljen in servisiran na sistemih NVIDIA GB200 NVL72 – kar je dokaz tesnega sodelovanja med OpenAI in NVIDIA pri premikanju meja zmogljivosti umetne inteligence.

Primerjava s konkurenti

Izdaja Claude Opus 4.6 je prišla le nekaj minut po napovedi Anthropic-a o Claude Opus 4.6, kar je povzročilo takojšnjo primerjavo med obema modeloma.

Prednosti

Terminal-Bench 2.0: 77,3 proti 65,4 Opus 4.6 (+18,6 % prednost)

25 % hitrejša zmogljivost

Filozofija oblikovanja "Visoka zanesljivost, nizka varianca"

Sposobnost samogradnje (pomagal si je ustvariti)

Prva "Visoka zmogljivost" razvrstitev kibernetske varnosti

Prednosti Claude Opus 4.6

Kontekstno okno z 1 milijonom žetonov (znatno večje)

Funkcionalnost sodelovanja "Ekipe agentov"

Širša vsestranskost v scenarijih znanja

Višja temperatura ustvarjalnosti (več osebnosti)

Razlike v filozofiji oblikovanja

Širša slika

agentom za splošne namene, ki lahko razmišljajo, gradijo in izvajajo predstavlja več kot le postopno nadgradnjo – to je korak naprej k agentom za splošne namene, ki lahko razmišljajo, gradijo in izvajajo v celotnem spektru resničnega tehničnega dela.

Od agenta za kodo do računalniškega agenta

OpenAI izrecno opredeljuje to evolucijo: "Codex se premika onkraj pisanja kode in jo uporablja kot orodje za upravljanje računalnika in dokončanje dela od začetka do konca."

To je globoka sprememba. Kar se je začelo kot osredotočenost na to, da bi bil "najboljši agent za kodiranje," je postalo temelj za bolj splošnega sodelavca na računalniku – s čimer se širi tako, kdo lahko gradi, kot tudi, kaj je mogoče z umetno inteligenco.

Pospeševanje razvoja umetne inteligence

Dejstvo, da je pomagal zgraditi samega sebe, je predogled tega, kar prihaja. Kot ugotavljajo raziskovalci OpenAI, "mnogi raziskovalci in inženirji v OpenAI opisujejo svoje delo danes kot temeljito drugačno od tega, kar je bilo še pred dvema mesecema."

To nakazuje, da vstopamo v obdobje pospešenih donosov v razvoju umetne inteligence, kjer vsaka generacija modelov pomaga graditi naslednjo – kar lahko skrajša časovnice z let na mesece.

Implikacije za razvijalce

Za razvijalce programske opreme so implikacije pomembne:

Hitrejši razvojni cikli - UI obravnava več rutinskega dela

Abstrakcija na višji ravni - Razvijalci se lahko osredotočijo na arhitekturo in oblikovanje

Interaktivno sodelovanje - Manj kot uporaba orodja, bolj kot delo s soigralcem

Nove zmogljivosti - Naloge, ki so prej zahtevale specializirano znanje, so zdaj dostopne

Implikacije za podjetja

Za podjetja predstavlja:

Povečana produktivnost - Več dela se opravi v krajšem času

Nižje ovire - Za določene naloge je potrebnih manj specializiranih znanj

Novi varnostni premisleki - Razvrstitev kibernetske varnosti "Visoka zmogljivost" zahteva skrbno upravljanje

Konkurenčna prednost - Zgodnja uvedba zmogljive agentske UI

Zaključek

je mejni dosežek v umetni inteligenci. Kombinira:

Najnovejša uspešnost kodiranja

Napredne agentske zmogljivosti

Interaktivno sodelovanje

Samoizboljšanje (pomagal si je ustvariti)

Uporaba računalnika v resničnem svetu

Dejstvo, da je bil ključen pri lastnem ustvarjanju, služi kot tehnični dosežek in kot metafora za to, kam je usmerjena umetna inteligenca. Ko modeli postajajo bolj zmogljivi, niso le orodja, ki jih uporabljamo – postajajo partnerji v samem ustvarjalnem in razvojnem procesu.

Sočasna izdaja s Claude Opus 4.6, le nekaj minut narazen, poudarja intenzivnost konkurence na področju UI. Še pomembneje pa je, da nakazuje, da smo vstopili v novo fazo zmogljivosti UI – tisto, kjer lahko agenti zanesljivo obvladujejo kompleksne, dolgoročne naloge v celotnem spektru strokovnega računalniškega dela.

Kot pravi OpenAI: "Kar se je začelo kot osredotočenost na to, da bi bil najboljši agent za kodiranje, je postalo temelj za bolj splošnega sodelavca na računalniku."

Vprašanje zdaj ni več samo, kaj lahko ti modeli storijo – ampak, kaj se bomo odločili zgraditi z njimi.

Viri

Predstavljamo GPT-5.3-Codex - Uradna objava OpenAI

Sistemska kartica GPT-5.3-Codex - OpenAI

Cene, primerjalni testi in funkcije GPT 5.3 Codex razloženi - eesel AI

OpenAI: Novi model za kodiranje GPT-5.3-Codex je pomagal zgraditi samega sebe - Mashable

Z GPT-5.3-Codex OpenAI predstavlja Codex za več kot le pisanje kode - Ars Technica

OpenAI lansira nov agentski model za kodiranje le nekaj minut po tem, ko je Anthropic predstavil svojega - TechCrunch

Opus 4.6 proti CODEX 5.3, prva resnična primerjava - Reddit

GPT 5.3 Codex proti Opus 4.6: Velika konvergenca - Every

Cene platforme OpenAI

Cene Codexa

Uradna lestvica najboljših SWE-Bench

Opozorilo: Ta članek temelji na informacijah, ki so na voljo od 6. februarja 2026. Specifikacije, cene in razpoložljivost se lahko spremenijo. Za najnovejše informacije si oglejte uradno dokumentacijo OpenAI.

GPT-5.3-Codex: OpenAI-jev najzmogljivejši agentski model za kodiranje