• Koduleht
  • Blogi
  • AI Uudised
  • GPT-5.3-Codex: OpenAI kõige võimekam agentne kodeerimismudel

GPT-5.3-Codex: OpenAI kõige võimekam agentne kodeerimismudel

Uuendatud 6. veebr 2026

1 min


Sissejuhatus

5. veebruaril 2026 teatas OpenAI GPT-5.3-Codex'ist, mis on nende kõige arenenum agentne kodeerimismudel seni. See väljalase tähistab olulist verstaposti tehisintellekti vallas – mitte ainult oma muljetavaldavate tehniliste võimaluste tõttu, vaid ka seetõttu, et see on esimene mudel, mis aitas iseennast luua.
kujutab endast põhimõttelist nihet koodi kirjutamise tööriistalt interaktiivsele AI-põhisele kaastöölisele, mis on võimeline hakkama saama pikaajalise, reaalse tehnilise tööga kogu professionaalsete arvutiülesannete spektris.

Mis teeb 'i eriliseks?

Tõeline agentne mudel

Erinevalt traditsioonilistest kodeerimisabilistest, mis lihtsalt genereerivad koodilõike, on loodud "agentse" mudelina. See tähendab, et see suudab:
  • Säilitada konteksti pikaajaliste ülesannete puhul, mis kestavad tunde või isegi päevi
  • Kasutada tööriistu iseseisvalt, sealhulgas käsurealiideseid, failisüsteeme ja arenduskeskkondi
  • Kohandada ja itereerida reaalajas tagasiside põhjal, ilma et kaotaks oma kohta
  • Haldama keerulisi mitmeastmelisi töövooge, mis nõuavad uurimistööd, planeerimist ja teostamist

Iseehitamise saavutus

Võib-olla kõige tähelepanuväärsem aspekt 'i juures on see, et Codexi meeskond kasutas mudeli varaseid versioone, et:
  • Siluda omaenda treeningprotsessi
  • Hallata omaenda juurutamist
  • Diagnoosida testitulemusi ja hindamisi
  • Optimeerida infrastruktuuri lõpliku versiooni jaoks
See enesekohane arendustsükkel näitab, kuidas tehisintellekt hakkab oma arengut kiirendama – verstapost, mida OpenAI teadlased kirjeldasid kui "meid hämmastas, kui palju suutis Codex oma arengut kiirendada."

Jõudluse paranemine

25% kiirem on 25% kiirem kui tema eelkäija (GPT-5.2-Codex), tänu OpenAI infrastruktuuri ja inferentsi pinu täiustustele. See kiiruse suurenemine võimaldab reageerivamat reaalajas koostööd ja kiiremaid iteratsioonitsükleid.

Võrdlusnäitajad: andmed

saavutab tipptasemel jõudluse mitmetes olulistes võrdlusnäitajates, mis mõõdavad kodeerimist, agentseid võimeid ja reaalset arvutikasutust.

SWE-Bench Pro

SWE-Bench Pro on range reaalse tarkvaratehnika hindamine, mis hõlmab nelja programmeerimiskeelt (Python, JavaScript, TypeScript ja Go). Erinevalt oma eelkäijast (SWE-Bench Verified), mis testiti ainult Pythonit, on SWE-Bench Pro loodud olema saastumiskindlam ja tööstuslikult asjakohasem.

Terminal-Bench 2.0

GPT-5.3-Codex Terminal-Bench 2.0-s on eriti märkimisväärne. See võrdlusnäitaja mõõdab terminalioskusi, mida kodeerimisagent vajab – failisüsteemides navigeerimine, käskude täitmine ja arenduse töövoogude haldamine. Eelkõige saavutab GPT-5.3-Codex seda vähemate märgenditega kui ükski varasem mudel, muutes selle tõhusamaks.

OSWorld-Verified

GPT-5.3-Codex OSWorld-Verifiedis näitab oluliselt paranenud arvutikasutusvõimalusi. OSWorld on agentne arvutikasutuse võrdlusnäitaja, kus agendid peavad visuaalses töölauakeskkonnas tootlikkuse ülesandeid täitma. See tohutu paranemine näitab, et GPT-5.3-Codex on reaalse maailma liidestes navigeerimisel palju parem kui varasemad mudelid.

Enamat kui kood: üldotstarbeline agent

Kuigi paistab silma programmeerimises, ulatuvad selle võimalused koodi genereerimisest kaugemale. OpenAI positsioneerib seda agendina, mis suudab hakkama saada "peaaegu kõige sellega, mida arendajad ja spetsialistid saavad arvutis teha."

Tarkvara elutsükli tugi

Mudel on loodud toetama kogu tarkvaraarenduse elutsüklit:
  • Vigade otsimine – vigade tuvastamine ja parandamine
  • Juurutamine – väljalasete ja infrastruktuuri haldamine
  • Seire – jõudluse ja mõõdikute jälgimine
  • PRD-de kirjutamine – toote nõuete dokumendid
  • Koopia redigeerimine – dokumentatsioon ja turundustekst
  • Kasutajauuringud – kasutajate tagasiside analüüsimine
  • Testimine – testikomplektide kirjutamine ja käitamine
  • Mõõdikute analüüs – andmepõhine otsuste tegemine

Teadmustöö võimalused

GPT-5.3-Codex'is (OpenAI 2025. aasta hinnang, mis mõõdab jõudlust teadmustöö ülesannetes 44 ametikohal) vastab GPT-5.3-Codex GPT-5.2 jõudlusele. See hõlmab selliseid ülesandeid nagu:
  • Slaidide ja esitluste loomine
  • Andmete analüüsimine arvutustabelites
  • Dokumentide haldamine ja korraldamine
  • Uurimine ja süntees

Veebiarenduse näide

Mudeli võimaluste demonstreerimiseks palus OpenAI 'il ehitada nullist kaks terviklikku mängu:
  • Võidusõidumäng (Codexi rakenduse käivitusmängu versioon 2)
  • Sukeldumismäng
Kasutades ainult oskust "arenda veebimäng" ja üldisi järelpäringuid nagu "paranda viga" või "paranda mängu", itereeris iseseisvalt miljoneid märke, ehitades väga funktsionaalseid ja lihvitud mänge.

Parem kavatsuse mõistmine

Võrreldes 'iga mõistab uus mudel veebisaitide ehitamisel paremini kasutaja kavatsust. Lihtsad või täpsustamata viipadega minnakse nüüd vaikimisi saitidele, millel on:
  • Rohkem funktsionaalsust
  • Mõistlikud vaikesätted
  • Tootmisvalmis funktsioonid
Näiteks, kui paluti ehitada hinnakujunduse sihtleht, kuvaks automaatselt aastaplaani soodushinnaga kuuhinnana (muutes allahindluse selgeks) ja lõi automaatselt üleminekuva testamendikarusselli kolme erineva kasutaja tsitaadiga – tulemuseks oli täiuslikum ja lihvitum disain.

Interaktiivne koostöö

Üks olulisemaid kasutajakogemuse parandusi on võime mudelit selle töötamise ajal suunata.

Reaalajas suhtlemine

Selle asemel, et oodata lõplikku väljundit, saavad kasutajad nüüd:
  • Esitada küsimusi täitmise ajal
  • Arutada erinevaid lähenemisviise
  • Suunata konkreetsete lahenduste poole
  • Anda tagasisidet ülesande keskel
Seaded > Üldine > Järelkäitumine räägib läbi, mida ta teeb, vastab tagasisidele ja hoiab kasutajaid kursis algusest lõpuni. Selle saab lubada Codexi rakenduses kaudu Seaded > Üldine > Järelkäitumine.
See muudab kogemuse käskude andmisest masinale koostööks meeskonnaliikmega – põhimõtteline nihe selles, kuidas inimesed tehisintellekti süsteemidega suhtlevad.

Küberturvalisuse võimalused ja ohutus

esimene mudel, mille OpenAI klassifitseerib küberturvalisusega seotud ülesannete jaoks "kõrge võimekusega" mudelina on esimene mudel, mille OpenAI klassifitseerib küberturvalisusega seotud ülesannete jaoks "kõrge võimekusega" mudelina vastavalt oma valmisoleku raamistikule. See on ka esimene mudel, mis on otseselt koolitatud tarkvara haavatavuste tuvastamiseks.

Kaheotstarbeline olemus

Kuna küberturvalisus on oma olemuselt kaheotstarbeline (kasulik nii kaitseks kui ka rünnakuks), võtab OpenAI ettevaatusabinõusid:
  • Puuduvad lõplikud tõendid, et see suudab küberturberünnakuid algusest lõpuni automatiseerida
  • Juurutatakse terviklik küberturvalisuse ohutuspakett
  • Rakendatakse ohutuskoolitust ja automatiseeritud seiret
  • Nõutakse usaldusväärset juurdepääsu täiustatud võimaluste jaoks

Usaldusväärne juurdepääs küberruumile

OpenAI käivitab usaldusväärse juurdepääsu küberruumile, pilootprogrammi, et:
  • Kiirendada küberkaitse uurimistööd
  • Anda tööriistad esmalt kaitsjatele
  • Toetada ökosüsteemi vastupanuvõimet

$10 miljoni suurune kohustus

Laiendades 2023. aasta 1 miljoni dollari suurust küberturvalisuse toetusprogrammi, kohustub OpenAI 10 miljonit dollarit API krediiti küberkaitse kiirendamiseks, eriti järgmiste valdkondade jaoks:
  • Avatud lähtekoodiga tarkvara
  • Kriitilise tähtsusega infrastruktuurisüsteemid
  • Heauskne turvalisuse uurimine

Aardvarki turvaagent

OpenAI laiendab Aardvarki, oma turvalisuse uurimisagendi privaatset beetat, mis on esimene pakkumine Codexi turvatoodete ja -tööriistade komplektis. Nad teevad koostööd ka avatud lähtekoodiga haldajatega, et pakkuda tasuta koodibaasi skannimist laialdaselt kasutatavatele projektidele nagu Next.js.

Kuidas OpenAI kasutas Codexit Codexi ehitamiseks

'i arendus on põnev näide AI-ga kiirendatud uurimistööst.

Uurimismeeskonna kasutusjuhtumid

Uurimismeeskond kasutas 'i varaseid versioone, et:
  • Jälgida ja siluda väljalaske treeningjooksu
  • Jälgida mustreid kogu treeningu vältel
  • Pakkuda põhjalikku analüüsi suhtluse kvaliteedi kohta
  • Pakkuda parandusi ja ehitada inimteadlastele rikkalikke rakendusi
  • Mõista täpselt, kuidas mudeli käitumine erines varasematest mudelitest

Insenerimeeskonna kasutusjuhtumid

Insenerimeeskond kasutas Codexit, et:
  • Optimeerida ja kohandada GPT-5.3-Codexi rakendust
  • Tuvastada konteksti renderdamise vead, mis mõjutavad kasutajaid
  • Põhjustada madalat vahemälu tabamussagedust
  • Düünamiliselt skaleerida GPU klastreid, et kohaneda liikluse suurenemisega
  • Hoida latentsust stabiilsena käivitamise ajal

Andmeteaduse kasutusjuhtumid

Alfa testimise ajal töötas andmeteadlane koos 'iga, et:
  • Ehitada regex-klassifikaatoreid, et hinnata selgituste, kasutajate vastuste ja ülesannete edenemise sagedust
  • Käitada neid klassifikaatoreid skaleeritavalt kõigi seansilogide kohal
  • Ehitada uusi andmetorustikke ja visualiseerida tulemusi rikkalikumalt kui tavalised armatuurlaua tööriistad
  • Koos analüüsida tulemusi, kusjuures Codex võtab kokku peamised arusaamad tuhandete andmepunktide kohta vähem kui kolme minutiga

Tootlikkuse kasv

Tulemus? Inimesed, kes Codexiga ehitasid, olid õnnelikumad, kuna agent:
  • Mõistis paremini nende kavatsust
  • Saavutas iga pöörde kohta rohkem edu
  • Esitas vähem selgitavaid küsimusi

Saadavus ja hinnakujundus

Kuidas juurde pääseda

kohe saadaval on kohe saadaval tasulistele ChatGPT kasutajatele kõigil Codexi pindadel:
  • Töölauarakendus (macOS ja Windows)
  • Käsurealiides (CLI)
  • IDE laiendused (VS Code, JetBrains jne)
  • Veebiliides

Tellimusplaanid

Piiratud aja jooksul saavad tasulised plaanid kaks korda suuremad tavalised piirmäärad.

API hinnakujundus

Käivitamise hetkel ei ole OpenAI <a2>GPT-5.3-Codex'i ametlikku API hinnakujundust avaldanud</a2>. API-le juurdepääsu kirjeldatakse kui "peagi saabuvat" ja "saabuvat järgmistel nädalatel."
Viitamiseks on eelmise mudeli (GPT-5.2-Codex) praegune API hinnakujundus järgmine:

Infrastruktuur

NVIDIA GB200 NVL72 süsteemidega oli kaasdisainitud, koolitatud ja teenindatud NVIDIA GB200 NVL72 süsteemidega – see on tunnistus OpenAI ja NVIDIA tihedast koostööst tehisintellekti võimekuse piiride nihutamisel.

Võrdlus konkurentidega

Claude Opus 4.6'i väljalase tuli vaid mõni minut pärast Anthropic'i teadet Claude Opus 4.6'ist, mis seadis kohe paika võrdluse kahe mudeli vahel.

'i tugevused

  • Terminal-Bench 2.0: 77.3 vs Opus 4.6's 65.4 (+18.6% eelis)
  • 25% kiirem jõudlus
  • "Kõrge töökindlus, madal dispersioon" disainifilosoofia
  • Iseehitamise võime (aitas iseennast luua)
  • Esimene "kõrge võimekusega" küberturvalisuse klassifikatsioon

Claude Opus 4.6 tugevused

  • 1 miljoni märgi kontekstiaken (oluliselt suurem)
  • Agent Teams koostööfunktsioonid
  • Laiem mitmekülgsus teadmustöö stsenaariumide korral
  • Kõrgem loovustemperatuur (rohkem isikupära)

Disainifilosoofia erinevused

Suurem pilt

üldotstarbeliste agentide poole, kes suudavad põhjendada, ehitada ja teostada kujutab endast enamat kui lihtsalt järkjärgulist uuendust – see on samm muutuse suunas üldotstarbeliste agentide poole, kes suudavad põhjendada, ehitada ja teostada kogu reaalse tehnilise töö spektris.

Koodiagendist arvutiagendiks

OpenAI sõnastab selle arengu selgesõnaliselt: "Codex liigub koodi kirjutamisest kaugemale, kasutades seda tööriistana arvuti kasutamiseks ja töö lõpuleviimiseks."
See on sügav muutus. See, mis algas keskendumisega "parimaks kodeerimisagendiks" olemisele, on saanud aluse üldisemale arvuti kaastöölisele – laiendades nii seda, kes saab ehitada, kui ka seda, mis on AI-ga võimalik.

Tehisintellekti arenduse kiirendamine

Asjaolu, et aitas iseennast ehitada, on eelvaade sellele, mis on tulemas. Nagu OpenAI teadlased märgivad, "kirjeldavad paljud OpenAI teadlased ja insenerid oma tööd tänapäeval põhimõtteliselt teisena kui see oli vaid kaks kuud tagasi."
See viitab sellele, et oleme sisenemas tehisintellekti arenduse kiireneva tootluse perioodi, kus iga mudelite põlvkond aitab ehitada järgmist – potentsiaalselt surudes ajakavasid aastatest kuudesse.

Mõju arendajatele

Tarkvaraarendajate jaoks on sellel oluline mõju:
  • Kiiremad arendustsüklid – AI tegeleb suurema osa rutiinse tööga
  • Kõrgema taseme abstraktsioon – arendajad saavad keskenduda arhitektuurile ja disainile
  • Interaktiivne koostöö – vähem tööriista kasutamise moodi, rohkem meeskonnaliikmega töötamise moodi
  • Uued võimalused – ülesanded, mis varem nõudsid eriteadmisi, on nüüd kättesaadavad

Mõju ettevõtetele

Ettevõtete jaoks tähendab :
  • Suurem tootlikkus – rohkem tööd tehakse vähema ajaga
  • Madalamad tõkked – teatud ülesannete jaoks on vaja vähem erioskusi
  • Uued turvakaalutlused – "kõrge võimekusega" küberturvalisuse klassifikatsioon nõuab hoolikat juhtimist
  • Konkurentsieelis – võimsa agentse AI varajane kasutuselevõtt

Kokkuvõte

on tehisintellekti valdkonnas teedrajav saavutus. See ühendab:
  • Tipptasemel kodeerimisjõudlus
  • Täiustatud agentseid võimalusi
  • Interaktiivne koostöö
  • Enesearendus (see aitas iseennast ehitada)
  • Reaalse maailma arvutikasutus
Asjaolu, et see aitas kaasa oma loomisele, on nii tehniline saavutus kui ka metafoor selle kohta, kuhu tehisintellekt on teel. Kuna mudelid muutuvad võimekamaks, ei ole need lihtsalt tööriistad, mida me kasutame – neist on saamas partnerid loome- ja arendusprotsessis endas.
Samaaegne väljalase koos Claude Opus 4.6-ga, vaid mõni minut hiljem, rõhutab konkurentsi intensiivsust tehisintellekti valdkonnas. Kuid mis veelgi olulisem, see annab märku, et oleme sisenenud tehisintellekti võimekuse uude faasi – faasi, kus agendid saavad usaldusväärselt hakkama keerukate, pikaajaliste ülesannetega kogu professionaalse arvutitöö spektris.
Nagu OpenAI ütleb: "See, mis algas keskendumisega parimaks kodeerimisagendiks olemisele, on saanud aluse üldisemale arvuti kaastöölisele."
Küsimus ei ole nüüd mitte ainult selles, mida need mudelid suudavad teha, vaid selles, mida me otsustame nendega ehitada.

Allikad


Kohustustest loobumine: See artikkel põhineb teabele, mis on saadaval 6. veebruari 2026. aasta seisuga. Spetsifikatsioonid, hinnakujundus ja saadavus võivad muutuda. Kõige värskema teabe saamiseks vaadake OpenAI ametlikku dokumentatsiooni.