Pengenalan

Pada 5 Februari 2026, OpenAI mengumumkan GPT-5.3-Codex, model pengekodan agentiknya yang paling canggih setakat ini. Pelancaran ini menandakan pencapaian penting dalam kecerdasan buatan—bukan sahaja kerana keupayaan teknikalnya yang mengagumkan tetapi juga kerana ia merupakan model pertama yang memainkan peranan penting dalam mencipta dirinya sendiri.

mewakili perubahan asas daripada alat penulisan kod kepada kolaborator AI interaktif yang mampu mengendalikan kerja teknikal dunia sebenar dengan jangka masa panjang merentasi spektrum penuh tugas pengkomputeran profesional.

Apa Yang Membezakan ?

Model Agentik Sejati

Tidak seperti pembantu pengekodan tradisional yang hanya menjana coretan kod, direka sebagai model "agentik". Ini bermakna ia boleh:

Mengekalkan konteks merentasi tugas yang berjalan lama yang merangkumi berjam-jam atau bahkan berhari-hari

Menggunakan alat secara autonomi, termasuk antara muka baris perintah, sistem fail dan persekitaran pembangunan

Menyesuaikan diri dan mengulang berdasarkan maklum balas masa nyata tanpa kehilangan kedudukannya

Mengendalikan aliran kerja berbilang langkah yang kompleks yang memerlukan penyelidikan, perancangan dan pelaksanaan

Pencapaian Membina Sendiri

Mungkin aspek yang paling luar biasa adalah bahawa pasukan Codex menggunakan versi awal model untuk:

Menyahpepijat proses latihannya sendiri

Menguruskan penggunaan sendiri

Mendiagnosis keputusan ujian dan penilaian

Mengoptimumkan infrastruktur untuk keluaran akhir

Kitaran pembangunan rujukan kendiri ini menunjukkan bagaimana AI mula mempercepatkan penambahbaikan sendiri—satu pencapaian yang digambarkan oleh penyelidik OpenAI sebagai "terkejut dengan betapa Codex dapat mempercepatkan pembangunannya sendiri."

Peningkatan Prestasi

25% lebih pantas 25% lebih pantas daripada pendahulunya (GPT-5.2-Codex), terima kasih kepada peningkatan dalam infrastruktur OpenAI dan timbunan inferens. Peningkatan kelajuan ini membolehkan kolaborasi masa nyata yang lebih responsif dan kitaran lelaran yang lebih pantas.

Prestasi Penanda Aras: Data

mencapai prestasi terkini merentasi beberapa penanda aras utama yang mengukur pengekodan, keupayaan agentik dan penggunaan komputer dunia sebenar.

SWE-Bench Pro

SWE-Bench Pro ialah penilaian ketat kejuruteraan perisian dunia sebenar yang merangkumi empat bahasa pengaturcaraan (Python, JavaScript, TypeScript dan Go). Tidak seperti pendahulunya (SWE-Bench Verified) yang hanya menguji Python, SWE-Bench Pro direka bentuk untuk lebih tahan pencemaran dan relevan dengan industri.

Terminal-Bench 2.0

GPT-5.3-Codex pada Terminal-Bench 2.0 adalah amat ketara. Penanda aras ini mengukur kemahiran terminal yang diperlukan oleh agen pengekodan—menavigasi sistem fail, melaksanakan perintah dan mengurus aliran kerja pembangunan. Terutamanya, GPT-5.3-Codex mencapai ini dengan kurang token berbanding mana-mana model sebelumnya, menjadikannya lebih cekap.

OSWorld-Verified

GPT-5.3-Codex pada OSWorld-Verified menunjukkan keupayaan penggunaan komputer yang bertambah baik secara mendadak. OSWorld ialah penanda aras penggunaan komputer agentik di mana agen mesti menyelesaikan tugas produktiviti dalam persekitaran desktop visual. Peningkatan besar ini menunjukkan bahawa GPT-5.3-Codex jauh lebih baik dalam menavigasi antara muka dunia sebenar berbanding model sebelumnya.

Melangkaui Kod: Agen Tujuan Umum

Walaupun cemerlang dalam pengaturcaraan, keupayaannya melangkaui penjanaan kod. OpenAI meletakkannya sebagai ejen yang boleh mengendalikan "hampir semua yang boleh dilakukan oleh pembangun dan profesional pada komputer."

Sokongan Kitaran Hayat Perisian

Model ini dibina untuk menyokong keseluruhan kitaran hayat pembangunan perisian:

Penyahpepijatan - Mengenal pasti dan membaiki pepijat

Penggunaan - Menguruskan keluaran dan infrastruktur

Pemantauan - Menjejaki prestasi dan metrik

Menulis PRD - Dokumen keperluan produk

Menyunting salinan - Dokumentasi dan teks pemasaran

Penyelidikan pengguna - Menganalisis maklum balas pengguna

Pengujian - Menulis dan menjalankan suite ujian

Analisis metrik - Membuat keputusan berdasarkan data

Keupayaan Kerja Berpengetahuan

Pada GPT-5.3-Codex (Penilaian 2025 OpenAI yang mengukur prestasi pada tugas kerja berpengetahuan merentasi 44 pekerjaan), GPT-5.3-Codex sepadan dengan prestasi GPT-5.2. Ini termasuk tugas seperti:

Mencipta dek slaid dan pembentangan

Menganalisis data dalam hamparan

Pengurusan dan organisasi dokumen

Penyelidikan dan sintesis

Contoh Pembangunan Web

Untuk menunjukkan keupayaan model, OpenAI meminta untuk membina dua permainan lengkap dari awal:

Permainan perlumbaan (versi 2 permainan pelancaran aplikasi Codex)

Permainan menyelam

Dengan hanya menggunakan kemahiran "membangunkan permainan web" dan gesaan susulan generik seperti "baiki pepijat" atau "tingkatkan permainan", berulang secara autonomi ke atas berjuta-juta token, membina permainan yang sangat berfungsi dan digilap.

Pemahaman Niat Yang Lebih Baik

Berbanding dengan , model baharu ini lebih memahami niat pengguna apabila membina tapak web. Gesaan mudah atau kurang jelas kini lalai ke tapak dengan:

Lebih banyak fungsi

Lalai yang munasabah

Ciri sedia pengeluaran

Sebagai contoh, apabila diminta untuk membina halaman pendaratan harga, secara automatik memaparkan pelan tahunan sebagai harga bulanan yang didiskaun (menjadikan diskaun itu jelas) dan mencipta karusel testimoni peralihan automatik dengan tiga petikan pengguna yang berbeza—menghasilkan reka bentuk yang lebih lengkap dan digilap.

Kerjasama Interaktif

Salah satu peningkatan pengalaman pengguna yang paling ketara ialah keupayaan untuk mengarahkan model semasa ia berfungsi.

Interaksi Masa Nyata

Daripada menunggu output akhir, pengguna kini boleh:

Bertanya soalan semasa pelaksanaan

Bincangkan pendekatan yang berbeza

Mengarahkan ke arah penyelesaian tertentu

Berikan maklum balas di tengah tugas

Tetapan > Umum > Tingkah laku susulan membincangkan apa yang dilakukannya, bertindak balas kepada maklum balas dan memastikan pengguna sentiasa mengetahui dari awal hingga akhir. Ini boleh didayakan dalam aplikasi Codex melalui Tetapan > Umum > Tingkah laku susulan.

Ini mengubah pengalaman daripada memberikan arahan kepada mesin kepada bekerjasama dengan rakan sepasukan—perubahan asas dalam cara manusia berinteraksi dengan sistem AI.

Keupayaan dan Keselamatan Keselamatan Siber

model pertama yang diklasifikasikan oleh OpenAI sebagai "Keupayaan Tinggi" untuk tugas berkaitan keselamatan siber ialah model pertama yang diklasifikasikan oleh OpenAI sebagai "Keupayaan Tinggi" untuk tugas berkaitan keselamatan siber di bawah Rangka Kerja Kesediaannya. Ia juga merupakan model pertama yang dilatih secara langsung untuk mengenal pasti kelemahan perisian.

Sifat Dwi-Guna

Oleh kerana keselamatan siber sememangnya dwi-guna (berguna untuk pertahanan dan serangan), OpenAI mengambil pendekatan berhati-hati:

Tiada bukti muktamad bahawa ia boleh mengautomasikan serangan siber dari hujung ke hujung

Menggunakan timbunan keselamatan siber yang komprehensif

Melaksanakan latihan keselamatan dan pemantauan automatik

Memerlukan akses yang dipercayai untuk keupayaan lanjutan

Akses Terpercaya untuk Siber

OpenAI melancarkan Akses Terpercaya untuk Siber, program perintis untuk:

Mempercepatkan penyelidikan pertahanan siber

Dapatkan alat kepada pembela dahulu

Menyokong ketahanan ekosistem

Komitmen $10J

Berlandaskan Program Geran Keselamatan Siber $1J dari 2023, OpenAI komited $10 juta dalam kredit API untuk mempercepatkan pertahanan siber, terutamanya untuk:

Perisian sumber terbuka

Sistem infrastruktur kritikal

Penyelidikan keselamatan niat baik

Ejen Keselamatan Aardvark

OpenAI mengembangkan beta peribadi Aardvark, ejen penyelidikan keselamatannya, sebagai tawaran pertama dalam suite produk dan alat Keselamatan Codexnya. Mereka juga bekerjasama dengan penyelenggara sumber terbuka untuk menyediakan pengimbasan pangkalan kod percuma untuk projek yang digunakan secara meluas seperti Next.js.

Bagaimana OpenAI Menggunakan Codex untuk Membina Codex

Pembangunan menyediakan kajian kes yang menarik dalam penyelidikan dipercepatkan AI.

Kes Penggunaan Pasukan Penyelidik

Pasukan penyelidik menggunakan versi awal untuk:

Memantau dan menyahpepijat larian latihan untuk keluaran

Menjejaki corak sepanjang latihan

Menyediakan analisis mendalam tentang kualiti interaksi

Mencadangkan pembetulan dan membina aplikasi yang kaya untuk penyelidik manusia

Memahami dengan tepat bagaimana tingkah laku model berbeza daripada model sebelumnya

Kes Penggunaan Pasukan Kejuruteraan

Pasukan kejuruteraan menggunakan Codex untuk:

Mengoptimumkan dan menyesuaikan abah-abah untuk <a2>GPT-5.3-Codex</a2>

Mengenal pasti pepijat rendering konteks yang memberi kesan kepada pengguna

Mencari punca kadar hit cache yang rendah

Menskalakan kelompok GPU secara dinamik untuk menyesuaikan diri dengan lonjakan trafik

Pastikan kependaman stabil semasa pelancaran

Kes Penggunaan Sains Data

Semasa ujian alfa, saintis data bekerjasama dengan untuk:

Membina pengelas regex untuk menganggarkan kekerapan penjelasan, tindak balas pengguna dan kemajuan tugas

Menjalankan pengelas ini secara berskala ke atas semua log sesi

Membina saluran data baharu dan menggambarkan hasil dengan lebih kaya daripada alat papan pemuka standard

Bersama-sama menganalisis hasil, dengan Codex meringkaskan cerapan utama ke atas beribu-ribu titik data dalam masa kurang daripada tiga minit

Keuntungan Produktiviti

Hasilnya? Orang yang membina dengan Codex lebih gembira kerana ejen:

Lebih memahami niat mereka

Membuat lebih banyak kemajuan setiap giliran

Bertanya lebih sedikit soalan penjelasan

Ketersediaan dan Harga

Cara Mengakses

tersedia dengan serta-merta tersedia dengan serta-merta untuk pengguna ChatGPT berbayar di semua permukaan Codex:

Aplikasi desktop (macOS dan Windows)

Antara muka baris perintah (CLI)

Sambungan IDE (VS Code, JetBrains, dll.)

Antara muka web

Pelan Langganan

Untuk masa yang terhad, pelan berbayar akan menerima dua kali ganda had kadar biasa.

Harga API

Setakat pelancaran, GPT-5.3-Codex untuk GPT-5.3-Codex. Akses API digambarkan sebagai "dilancarkan tidak lama lagi" dan "akan datang dalam beberapa minggu akan datang."

Sebagai rujukan, harga API semasa untuk model sebelumnya (GPT-5.2-Codex) ialah:

Infrastruktur

sistem NVIDIA GB200 NVL72 direka bersama, dilatih dan disampaikan pada sistem NVIDIA GB200 NVL72—bukti kerjasama erat antara OpenAI dan NVIDIA dalam menolak sempadan keupayaan AI.

Perbandingan dengan Pesaing

Pelancaran Claude Opus 4.6 datang hanya beberapa minit selepas pengumuman Anthropic tentang Claude Opus 4.6, mewujudkan perbandingan serta-merta antara kedua-dua model.

Kekuatan

Terminal-Bench 2.0: 77.3 berbanding 65.4 Opus 4.6 (+18.6% kelebihan)

Prestasi 25% lebih pantas

"Kebolehpercayaan tinggi, varians rendah" falsafah reka bentuk

Keupayaan membina sendiri (membantu mencipta dirinya sendiri)

Klasifikasi keselamatan siber "Keupayaan Tinggi" pertama

Kekuatan Claude Opus 4.6

1 juta tetingkap konteks token (jauh lebih besar)

Pasukan Ejen fungsi kolaboratif

Kepelbagaian yang lebih luas merentasi senario kerja berpengetahuan

Suhu kreativiti yang lebih tinggi (lebih personaliti)

Perbezaan Falsafah Reka Bentuk

Gambaran Lebih Besar

ejen tujuan umum yang boleh menaakul, membina dan melaksanakan mewakili lebih daripada sekadar peningkatan tambahan—ia adalah perubahan langkah ke arah ejen tujuan umum yang boleh menaakul, membina dan melaksanakan merentasi spektrum penuh kerja teknikal dunia sebenar.

Daripada Ejen Kod kepada Ejen Komputer

OpenAI secara jelas membingkaikan evolusi ini: "Codex bergerak melangkaui penulisan kod untuk menggunakannya sebagai alat untuk mengendalikan komputer dan menyelesaikan kerja dari hujung ke hujung."

Ini adalah perubahan yang mendalam. Apa yang bermula sebagai tumpuan untuk menjadi "ejen pengekodan terbaik" telah menjadi asas untuk kolaborator yang lebih umum pada komputer—meluaskan kedua-dua pihak yang boleh membina dan apa yang mungkin dengan AI.

Mempercepatkan Pembangunan AI

Hakikat bahawa membantu membina dirinya sendiri adalah pratonton perkara yang akan datang. Seperti yang dinyatakan oleh penyelidik OpenAI, "ramai penyelidik dan jurutera di OpenAI menggambarkan pekerjaan mereka hari ini sebagai berbeza secara asas daripada apa yang berlaku hanya dua bulan lalu."

Ini menunjukkan bahawa kita memasuki tempoh pulangan yang dipercepatkan dalam pembangunan AI, di mana setiap generasi model membantu membina yang seterusnya—berpotensi memampatkan garis masa daripada tahun ke bulan.

Implikasi untuk Pembangun

Bagi pembangun perisian, implikasinya adalah ketara:

Kitaran pembangunan yang lebih pantas - AI mengendalikan lebih banyak kerja rutin

Abstraksi peringkat lebih tinggi - Pembangun boleh menumpukan pada seni bina dan reka bentuk

Kerjasama interaktif - Kurang seperti menggunakan alat, lebih seperti bekerja dengan rakan sepasukan

Keupayaan baharu - Tugas yang sebelum ini memerlukan pengetahuan khusus kini boleh diakses

Implikasi untuk Perniagaan

Bagi perniagaan, mewakili:

Peningkatan produktiviti - Lebih banyak kerja diselesaikan dalam masa yang lebih singkat

Halangan yang lebih rendah - Kurang kemahiran khusus diperlukan untuk tugas tertentu

Pertimbangan keselamatan baharu - Klasifikasi keselamatan siber "Keupayaan tinggi" memerlukan tadbir urus yang teliti

Kelebihan daya saing - Pengambilan awal AI agentik yang berkuasa

Kesimpulan

ialah pencapaian penting dalam kecerdasan buatan. Ia menggabungkan:

Prestasi pengekodan terkini

Keupayaan agentik lanjutan

Kerjasama interaktif

Penambahbaikan sendiri (ia membantu membina dirinya sendiri)

Penggunaan komputer dunia sebenar

Hakikat bahawa ia memainkan peranan penting dalam penciptaannya sendiri berfungsi sebagai pencapaian teknikal dan metafora untuk hala tuju AI. Apabila model menjadi lebih berkebolehan, ia bukan sahaja alat yang kita gunakan—ia menjadi rakan kongsi dalam proses kreatif dan pembangunan itu sendiri.

Pelancaran serentak dengan Claude Opus 4.6, hanya beberapa minit sahaja, menggariskan keamatan persaingan dalam ruang AI. Tetapi yang lebih penting, ia menandakan bahawa kita telah memasuki fasa baharu keupayaan AI—di mana ejen boleh mengendalikan tugas jangka masa panjang yang kompleks dengan pasti merentasi spektrum penuh kerja komputer profesional.

Seperti yang dinyatakan oleh OpenAI: "Apa yang bermula sebagai tumpuan untuk menjadi ejen pengekodan terbaik telah menjadi asas untuk kolaborator yang lebih umum pada komputer."

Soalannya sekarang bukan sahaja apa yang boleh dilakukan oleh model ini—tetapi apa yang akan kita pilih untuk dibina dengannya.

Sumber

Memperkenalkan GPT-5.3-Codex - Pengumuman Rasmi OpenAI

Kad Sistem GPT-5.3-Codex - OpenAI

Harga, penanda aras dan ciri GPT 5.3 Codex dijelaskan - eesel AI

OpenAI: Model pengekodan baharu GPT-5.3-Codex membantu membina dirinya sendiri - Mashable

Dengan GPT-5.3-Codex, OpenAI menawarkan Codex untuk lebih daripada sekadar menulis kod - Ars Technica

OpenAI melancarkan model pengekodan agentik baharu hanya beberapa minit selepas Anthropic menggugurkannya sendiri - TechCrunch

Opus 4.6 lwn CODEX 5.3, perbandingan sebenar pertama - Reddit

GPT 5.3 Codex lwn. Opus 4.6: Penumpuan Hebat - Setiap

Harga Platform OpenAI

Harga Codex

Papan Pendahulu Rasmi SWE-Bench

Penafian: Artikel ini adalah berdasarkan maklumat yang tersedia pada 6 Februari 2026. Spesifikasi, harga dan ketersediaan mungkin berubah. Sila rujuk dokumentasi rasmi OpenAI untuk maklumat terkini.

GPT-5.3-Codex: Model Pengekodan Berkeupayaan Agentik Terbaik OpenAI