Pengenalan
Pada 5 Februari 2026, OpenAI mengumumkan GPT-5.3-Codex, model pengekodan agentiknya yang paling canggih setakat ini. Pelancaran ini menandakan pencapaian penting dalam kecerdasan buatan—bukan sahaja kerana keupayaan teknikalnya yang mengagumkan tetapi juga kerana ia merupakan model pertama yang memainkan peranan penting dalam mencipta dirinya sendiri.
mewakili perubahan asas daripada alat penulisan kod kepada kolaborator AI interaktif yang mampu mengendalikan kerja teknikal dunia sebenar dengan jangka masa panjang merentasi spektrum penuh tugas pengkomputeran profesional.
Apa Yang Membezakan ?
Model Agentik Sejati
Tidak seperti pembantu pengekodan tradisional yang hanya menjana coretan kod, direka sebagai model "agentik". Ini bermakna ia boleh:
- Mengekalkan konteks merentasi tugas yang berjalan lama yang merangkumi berjam-jam atau bahkan berhari-hari
- Menggunakan alat secara autonomi, termasuk antara muka baris perintah, sistem fail dan persekitaran pembangunan
- Menyesuaikan diri dan mengulang berdasarkan maklum balas masa nyata tanpa kehilangan kedudukannya
- Mengendalikan aliran kerja berbilang langkah yang kompleks yang memerlukan penyelidikan, perancangan dan pelaksanaan
Pencapaian Membina Sendiri
Mungkin aspek yang paling luar biasa adalah bahawa pasukan Codex menggunakan versi awal model untuk:
- Menyahpepijat proses latihannya sendiri
- Menguruskan penggunaan sendiri
- Mendiagnosis keputusan ujian dan penilaian
- Mengoptimumkan infrastruktur untuk keluaran akhir
Kitaran pembangunan rujukan kendiri ini menunjukkan bagaimana AI mula mempercepatkan penambahbaikan sendiri—satu pencapaian yang digambarkan oleh penyelidik OpenAI sebagai "terkejut dengan betapa Codex dapat mempercepatkan pembangunannya sendiri."
Peningkatan Prestasi
25% lebih pantas 25% lebih pantas daripada pendahulunya (GPT-5.2-Codex), terima kasih kepada peningkatan dalam infrastruktur OpenAI dan timbunan inferens. Peningkatan kelajuan ini membolehkan kolaborasi masa nyata yang lebih responsif dan kitaran lelaran yang lebih pantas.
Prestasi Penanda Aras: Data
mencapai prestasi terkini merentasi beberapa penanda aras utama yang mengukur pengekodan, keupayaan agentik dan penggunaan komputer dunia sebenar.
SWE-Bench Pro
SWE-Bench Pro ialah penilaian ketat kejuruteraan perisian dunia sebenar yang merangkumi empat bahasa pengaturcaraan (Python, JavaScript, TypeScript dan Go). Tidak seperti pendahulunya (SWE-Bench Verified) yang hanya menguji Python, SWE-Bench Pro direka bentuk untuk lebih tahan pencemaran dan relevan dengan industri.
Terminal-Bench 2.0
GPT-5.3-Codex pada Terminal-Bench 2.0 adalah amat ketara. Penanda aras ini mengukur kemahiran terminal yang diperlukan oleh agen pengekodan—menavigasi sistem fail, melaksanakan perintah dan mengurus aliran kerja pembangunan. Terutamanya, GPT-5.3-Codex mencapai ini dengan kurang token berbanding mana-mana model sebelumnya, menjadikannya lebih cekap.
OSWorld-Verified
GPT-5.3-Codex pada OSWorld-Verified menunjukkan keupayaan penggunaan komputer yang bertambah baik secara mendadak. OSWorld ialah penanda aras penggunaan komputer agentik di mana agen mesti menyelesaikan tugas produktiviti dalam persekitaran desktop visual. Peningkatan besar ini menunjukkan bahawa GPT-5.3-Codex jauh lebih baik dalam menavigasi antara muka dunia sebenar berbanding model sebelumnya.
Melangkaui Kod: Agen Tujuan Umum
Walaupun cemerlang dalam pengaturcaraan, keupayaannya melangkaui penjanaan kod. OpenAI meletakkannya sebagai ejen yang boleh mengendalikan "hampir semua yang boleh dilakukan oleh pembangun dan profesional pada komputer."
Sokongan Kitaran Hayat Perisian
Model ini dibina untuk menyokong keseluruhan kitaran hayat pembangunan perisian:
- Penyahpepijatan - Mengenal pasti dan membaiki pepijat
- Penggunaan - Menguruskan keluaran dan infrastruktur
- Pemantauan - Menjejaki prestasi dan metrik
- Menulis PRD - Dokumen keperluan produk
- Menyunting salinan - Dokumentasi dan teks pemasaran
- Penyelidikan pengguna - Menganalisis maklum balas pengguna
- Pengujian - Menulis dan menjalankan suite ujian
- Analisis metrik - Membuat keputusan berdasarkan data
Keupayaan Kerja Berpengetahuan
Pada GPT-5.3-Codex (Penilaian 2025 OpenAI yang mengukur prestasi pada tugas kerja berpengetahuan merentasi 44 pekerjaan), GPT-5.3-Codex sepadan dengan prestasi GPT-5.2. Ini termasuk tugas seperti:
- Mencipta dek slaid dan pembentangan
- Menganalisis data dalam hamparan
- Pengurusan dan organisasi dokumen
- Penyelidikan dan sintesis
Contoh Pembangunan Web
Untuk menunjukkan keupayaan model, OpenAI meminta untuk membina dua permainan lengkap dari awal:
- Permainan perlumbaan (versi 2 permainan pelancaran aplikasi Codex)
Dengan hanya menggunakan kemahiran "membangunkan permainan web" dan gesaan susulan generik seperti "baiki pepijat" atau "tingkatkan permainan", berulang secara autonomi ke atas berjuta-juta token, membina permainan yang sangat berfungsi dan digilap.
Pemahaman Niat Yang Lebih Baik
Berbanding dengan , model baharu ini lebih memahami niat pengguna apabila membina tapak web. Gesaan mudah atau kurang jelas kini lalai ke tapak dengan:
Sebagai contoh, apabila diminta untuk membina halaman pendaratan harga, secara automatik memaparkan pelan tahunan sebagai harga bulanan yang didiskaun (menjadikan diskaun itu jelas) dan mencipta karusel testimoni peralihan automatik dengan tiga petikan pengguna yang berbeza—menghasilkan reka bentuk yang lebih lengkap dan digilap.
Kerjasama Interaktif
Salah satu peningkatan pengalaman pengguna yang paling ketara ialah keupayaan untuk mengarahkan model semasa ia berfungsi.
Interaksi Masa Nyata
Daripada menunggu output akhir, pengguna kini boleh:
- Bertanya soalan semasa pelaksanaan
- Bincangkan pendekatan yang berbeza
- Mengarahkan ke arah penyelesaian tertentu
- Berikan maklum balas di tengah tugas
Tetapan > Umum > Tingkah laku susulan membincangkan apa yang dilakukannya, bertindak balas kepada maklum balas dan memastikan pengguna sentiasa mengetahui dari awal hingga akhir. Ini boleh didayakan dalam aplikasi Codex melalui Tetapan > Umum > Tingkah laku susulan.
Ini mengubah pengalaman daripada memberikan arahan kepada mesin kepada bekerjasama dengan rakan sepasukan—perubahan asas dalam cara manusia berinteraksi dengan sistem AI.
Keupayaan dan Keselamatan Keselamatan Siber
model pertama yang diklasifikasikan oleh OpenAI sebagai "Keupayaan Tinggi" untuk tugas berkaitan keselamatan siber ialah model pertama yang diklasifikasikan oleh OpenAI sebagai "Keupayaan Tinggi" untuk tugas berkaitan keselamatan siber di bawah Rangka Kerja Kesediaannya. Ia juga merupakan model pertama yang dilatih secara langsung untuk mengenal pasti kelemahan perisian.
Sifat Dwi-Guna
Oleh kerana keselamatan siber sememangnya dwi-guna (berguna untuk pertahanan dan serangan), OpenAI mengambil pendekatan berhati-hati:
- Tiada bukti muktamad bahawa ia boleh mengautomasikan serangan siber dari hujung ke hujung
- Menggunakan timbunan keselamatan siber yang komprehensif
- Melaksanakan latihan keselamatan dan pemantauan automatik
- Memerlukan akses yang dipercayai untuk keupayaan lanjutan
Akses Terpercaya untuk Siber
OpenAI melancarkan Akses Terpercaya untuk Siber, program perintis untuk:
- Mempercepatkan penyelidikan pertahanan siber
- Dapatkan alat kepada pembela dahulu
- Menyokong ketahanan ekosistem
Komitmen $10J
Berlandaskan Program Geran Keselamatan Siber $1J dari 2023, OpenAI komited $10 juta dalam kredit API untuk mempercepatkan pertahanan siber, terutamanya untuk:
- Sistem infrastruktur kritikal
- Penyelidikan keselamatan niat baik
Ejen Keselamatan Aardvark
OpenAI mengembangkan beta peribadi Aardvark, ejen penyelidikan keselamatannya, sebagai tawaran pertama dalam suite produk dan alat Keselamatan Codexnya. Mereka juga bekerjasama dengan penyelenggara sumber terbuka untuk menyediakan pengimbasan pangkalan kod percuma untuk projek yang digunakan secara meluas seperti Next.js.
Bagaimana OpenAI Menggunakan Codex untuk Membina Codex
Pembangunan menyediakan kajian kes yang menarik dalam penyelidikan dipercepatkan AI.
Kes Penggunaan Pasukan Penyelidik
Pasukan penyelidik menggunakan versi awal untuk:
- Memantau dan menyahpepijat larian latihan untuk keluaran
- Menjejaki corak sepanjang latihan
- Menyediakan analisis mendalam tentang kualiti interaksi
- Mencadangkan pembetulan dan membina aplikasi yang kaya untuk penyelidik manusia
- Memahami dengan tepat bagaimana tingkah laku model berbeza daripada model sebelumnya
Kes Penggunaan Pasukan Kejuruteraan
Pasukan kejuruteraan menggunakan Codex untuk:
- Mengoptimumkan dan menyesuaikan abah-abah untuk <a2>GPT-5.3-Codex</a2>
- Mengenal pasti pepijat rendering konteks yang memberi kesan kepada pengguna
- Mencari punca kadar hit cache yang rendah
- Menskalakan kelompok GPU secara dinamik untuk menyesuaikan diri dengan lonjakan trafik
- Pastikan kependaman stabil semasa pelancaran
Kes Penggunaan Sains Data
Semasa ujian alfa, saintis data bekerjasama dengan untuk:
- Membina pengelas regex untuk menganggarkan kekerapan penjelasan, tindak balas pengguna dan kemajuan tugas
- Menjalankan pengelas ini secara berskala ke atas semua log sesi
- Membina saluran data baharu dan menggambarkan hasil dengan lebih kaya daripada alat papan pemuka standard
- Bersama-sama menganalisis hasil, dengan Codex meringkaskan cerapan utama ke atas beribu-ribu titik data dalam masa kurang daripada tiga minit
Keuntungan Produktiviti
Hasilnya? Orang yang membina dengan Codex lebih gembira kerana ejen:
- Lebih memahami niat mereka
- Membuat lebih banyak kemajuan setiap giliran
- Bertanya lebih sedikit soalan penjelasan
Ketersediaan dan Harga
Cara Mengakses
tersedia dengan serta-merta tersedia dengan serta-merta untuk pengguna ChatGPT berbayar di semua permukaan Codex:
- Aplikasi desktop (macOS dan Windows)
- Antara muka baris perintah (CLI)
- Sambungan IDE (VS Code, JetBrains, dll.)
Pelan Langganan
Untuk masa yang terhad, pelan berbayar akan menerima dua kali ganda had kadar biasa.
Harga API
Setakat pelancaran, GPT-5.3-Codex untuk GPT-5.3-Codex. Akses API digambarkan sebagai "dilancarkan tidak lama lagi" dan "akan datang dalam beberapa minggu akan datang."
Sebagai rujukan, harga API semasa untuk model sebelumnya (GPT-5.2-Codex) ialah:
Infrastruktur
sistem NVIDIA GB200 NVL72 direka bersama, dilatih dan disampaikan pada sistem NVIDIA GB200 NVL72—bukti kerjasama erat antara OpenAI dan NVIDIA dalam menolak sempadan keupayaan AI.
Perbandingan dengan Pesaing
Pelancaran Claude Opus 4.6 datang hanya beberapa minit selepas pengumuman Anthropic tentang Claude Opus 4.6, mewujudkan perbandingan serta-merta antara kedua-dua model.
Kekuatan
- Terminal-Bench 2.0: 77.3 berbanding 65.4 Opus 4.6 (+18.6% kelebihan)
- Prestasi 25% lebih pantas
- "Kebolehpercayaan tinggi, varians rendah" falsafah reka bentuk
- Keupayaan membina sendiri (membantu mencipta dirinya sendiri)
- Klasifikasi keselamatan siber "Keupayaan Tinggi" pertama
Kekuatan Claude Opus 4.6
- 1 juta tetingkap konteks token (jauh lebih besar)
- Pasukan Ejen fungsi kolaboratif
- Kepelbagaian yang lebih luas merentasi senario kerja berpengetahuan
- Suhu kreativiti yang lebih tinggi (lebih personaliti)
Perbezaan Falsafah Reka Bentuk
Gambaran Lebih Besar
ejen tujuan umum yang boleh menaakul, membina dan melaksanakan mewakili lebih daripada sekadar peningkatan tambahan—ia adalah perubahan langkah ke arah ejen tujuan umum yang boleh menaakul, membina dan melaksanakan merentasi spektrum penuh kerja teknikal dunia sebenar.
Daripada Ejen Kod kepada Ejen Komputer
OpenAI secara jelas membingkaikan evolusi ini: "Codex bergerak melangkaui penulisan kod untuk menggunakannya sebagai alat untuk mengendalikan komputer dan menyelesaikan kerja dari hujung ke hujung."
Ini adalah perubahan yang mendalam. Apa yang bermula sebagai tumpuan untuk menjadi "ejen pengekodan terbaik" telah menjadi asas untuk kolaborator yang lebih umum pada komputer—meluaskan kedua-dua pihak yang boleh membina dan apa yang mungkin dengan AI.
Mempercepatkan Pembangunan AI
Hakikat bahawa membantu membina dirinya sendiri adalah pratonton perkara yang akan datang. Seperti yang dinyatakan oleh penyelidik OpenAI, "ramai penyelidik dan jurutera di OpenAI menggambarkan pekerjaan mereka hari ini sebagai berbeza secara asas daripada apa yang berlaku hanya dua bulan lalu."
Ini menunjukkan bahawa kita memasuki tempoh pulangan yang dipercepatkan dalam pembangunan AI, di mana setiap generasi model membantu membina yang seterusnya—berpotensi memampatkan garis masa daripada tahun ke bulan.
Implikasi untuk Pembangun
Bagi pembangun perisian, implikasinya adalah ketara:
- Kitaran pembangunan yang lebih pantas - AI mengendalikan lebih banyak kerja rutin
- Abstraksi peringkat lebih tinggi - Pembangun boleh menumpukan pada seni bina dan reka bentuk
- Kerjasama interaktif - Kurang seperti menggunakan alat, lebih seperti bekerja dengan rakan sepasukan
- Keupayaan baharu - Tugas yang sebelum ini memerlukan pengetahuan khusus kini boleh diakses
Implikasi untuk Perniagaan
Bagi perniagaan, mewakili:
- Peningkatan produktiviti - Lebih banyak kerja diselesaikan dalam masa yang lebih singkat
- Halangan yang lebih rendah - Kurang kemahiran khusus diperlukan untuk tugas tertentu
- Pertimbangan keselamatan baharu - Klasifikasi keselamatan siber "Keupayaan tinggi" memerlukan tadbir urus yang teliti
- Kelebihan daya saing - Pengambilan awal AI agentik yang berkuasa
Kesimpulan
ialah pencapaian penting dalam kecerdasan buatan. Ia menggabungkan:
- Prestasi pengekodan terkini
- Keupayaan agentik lanjutan
- Penambahbaikan sendiri (ia membantu membina dirinya sendiri)
- Penggunaan komputer dunia sebenar
Hakikat bahawa ia memainkan peranan penting dalam penciptaannya sendiri berfungsi sebagai pencapaian teknikal dan metafora untuk hala tuju AI. Apabila model menjadi lebih berkebolehan, ia bukan sahaja alat yang kita gunakan—ia menjadi rakan kongsi dalam proses kreatif dan pembangunan itu sendiri.
Pelancaran serentak dengan Claude Opus 4.6, hanya beberapa minit sahaja, menggariskan keamatan persaingan dalam ruang AI. Tetapi yang lebih penting, ia menandakan bahawa kita telah memasuki fasa baharu keupayaan AI—di mana ejen boleh mengendalikan tugas jangka masa panjang yang kompleks dengan pasti merentasi spektrum penuh kerja komputer profesional.
Seperti yang dinyatakan oleh OpenAI: "Apa yang bermula sebagai tumpuan untuk menjadi ejen pengekodan terbaik telah menjadi asas untuk kolaborator yang lebih umum pada komputer."
Soalannya sekarang bukan sahaja apa yang boleh dilakukan oleh model ini—tetapi apa yang akan kita pilih untuk dibina dengannya.
Sumber
Penafian: Artikel ini adalah berdasarkan maklumat yang tersedia pada 6 Februari 2026. Spesifikasi, harga dan ketersediaan mungkin berubah. Sila rujuk dokumentasi rasmi OpenAI untuk maklumat terkini.