Pendahuluan
Pada tanggal 5 Februari 2026, OpenAI mengumumkan GPT-5.3-Codex, model pengkodean agentik tercanggih mereka hingga saat ini. Rilis ini menandai tonggak penting dalam kecerdasan buatan—tidak hanya karena kemampuan teknisnya yang mengesankan tetapi juga karena ini adalah model pertama yang berperan penting dalam menciptakan dirinya sendiri.
mewakili pergeseran mendasar dari alat penulisan kode menjadi kolaborator AI interaktif yang mampu menangani pekerjaan teknis dunia nyata berjangka panjang di seluruh spektrum tugas komputasi profesional.
Apa yang Membedakan ?
Model Agentik Sejati
Tidak seperti asisten pengkodean tradisional yang hanya menghasilkan cuplikan kode, dirancang sebagai model "agentik". Ini berarti ia dapat:
- Mempertahankan konteks selama tugas berjalan lama yang berlangsung selama berjam-jam atau bahkan berhari-hari
- Menggunakan alat secara mandiri, termasuk antarmuka baris perintah, sistem file, dan lingkungan pengembangan
- Beradaptasi dan melakukan iterasi berdasarkan umpan balik waktu nyata tanpa kehilangan jejak
- Menangani alur kerja multi-langkah yang kompleks yang memerlukan penelitian, perencanaan, dan eksekusi
Pencapaian Membangun Diri Sendiri
Mungkin aspek yang paling luar biasa dari adalah bahwa tim Codex menggunakan versi awal model untuk:
- Men-debug proses pelatihannya sendiri
- Mengelola penyebarannya sendiri
- Mendiagnosis hasil pengujian dan evaluasi
- Mengoptimalkan infrastruktur untuk rilis akhir
Siklus pengembangan yang mereferensikan diri sendiri ini menunjukkan bagaimana AI mulai mempercepat peningkatannya sendiri—sebuah tonggak yang digambarkan oleh para peneliti OpenAI sebagai "terkejut betapa banyak Codex mampu mempercepat pengembangannya sendiri."
Peningkatan Kinerja
25% lebih cepat 25% lebih cepat daripada pendahulunya (GPT-5.2-Codex), berkat peningkatan dalam infrastruktur dan tumpukan inferensi OpenAI. Peningkatan kecepatan ini memungkinkan kolaborasi waktu nyata yang lebih responsif dan siklus iterasi yang lebih cepat.
Kinerja Tolok Ukur: Data
mencapai kinerja terbaik di beberapa tolok ukur utama yang mengukur pengkodean, kemampuan agentik, dan penggunaan komputer dunia nyata.
SWE-Bench Pro
SWE-Bench Pro adalah evaluasi ketat terhadap rekayasa perangkat lunak dunia nyata yang mencakup empat bahasa pemrograman (Python, JavaScript, TypeScript, dan Go). Tidak seperti pendahulunya (SWE-Bench Verified) yang hanya menguji Python, SWE-Bench Pro dirancang agar lebih tahan terhadap kontaminasi dan relevan dengan industri.
Terminal-Bench 2.0
GPT-5.3-Codex pada Terminal-Bench 2.0 sangat signifikan. Tolok ukur ini mengukur keterampilan terminal yang dibutuhkan oleh agen pengkodean—menavigasi sistem file, menjalankan perintah, dan mengelola alur kerja pengembangan. Khususnya, GPT-5.3-Codex mencapai ini dengan token yang lebih sedikit daripada model sebelumnya, sehingga lebih efisien.
OSWorld-Verified
GPT-5.3-Codex pada OSWorld-Verified menunjukkan peningkatan dramatis dalam kemampuan penggunaan komputer. OSWorld adalah tolok ukur penggunaan komputer agentik di mana agen harus menyelesaikan tugas-tugas produktivitas di lingkungan desktop visual. Peningkatan besar ini menunjukkan bahwa GPT-5.3-Codex jauh lebih baik dalam menavigasi antarmuka dunia nyata daripada model sebelumnya.
Di Luar Kode: Agen Tujuan Umum
Meskipun unggul dalam pemrograman, kemampuannya jauh melampaui pembuatan kode. OpenAI memposisikannya sebagai agen yang dapat menangani "hampir semua yang dapat dilakukan pengembang dan profesional di komputer."
Dukungan Siklus Hidup Perangkat Lunak
Model ini dibangun untuk mendukung seluruh siklus hidup pengembangan perangkat lunak:
- Debugging - Mengidentifikasi dan memperbaiki bug
- Deploying - Mengelola rilis dan infrastruktur
- Monitoring - Melacak kinerja dan metrik
- Writing PRDs - Dokumen persyaratan produk
- Editing copy - Dokumentasi dan teks pemasaran
- User research - Menganalisis umpan balik pengguna
- Testing - Menulis dan menjalankan rangkaian pengujian
- Metrics analysis - Pengambilan keputusan berdasarkan data
Kemampuan Pekerjaan Pengetahuan
Pada GPT-5.3-Codex (evaluasi OpenAI tahun 2025 yang mengukur kinerja pada tugas-tugas pekerjaan pengetahuan di 44 pekerjaan), GPT-5.3-Codex menyamai kinerja GPT-5.2. Ini termasuk tugas-tugas seperti:
- Membuat slide dan presentasi
- Menganalisis data dalam spreadsheet
- Manajemen dan organisasi dokumen
Contoh Pengembangan Web
Untuk mendemonstrasikan kemampuan model, OpenAI meminta untuk membangun dua game lengkap dari awal:
- Game balap (versi 2 dari game peluncuran aplikasi Codex)
Hanya menggunakan keterampilan "develop web game" dan perintah tindak lanjut generik seperti "fix the bug" atau "improve the game," melakukan iterasi secara mandiri atas jutaan token, membangun game yang sangat fungsional dan canggih.
Pemahaman Niat yang Lebih Baik
Dibandingkan dengan , model baru lebih memahami niat pengguna saat membangun situs web. Perintah sederhana atau kurang spesifik sekarang secara default mengarah ke situs dengan:
- Lebih banyak fungsionalitas
Misalnya, ketika diminta untuk membuat halaman arahan harga, secara otomatis menampilkan paket tahunan sebagai harga bulanan diskon (membuat diskon menjadi jelas) dan membuat korsel testimonial yang bertransisi secara otomatis dengan tiga kutipan pengguna yang berbeda—menghasilkan desain yang lebih lengkap dan canggih.
Kolaborasi Interaktif
Salah satu peningkatan pengalaman pengguna yang paling signifikan adalah kemampuan untuk mengarahkan model saat ia bekerja.
Interaksi Waktu Nyata
Alih-alih menunggu output akhir, pengguna sekarang dapat:
- Mengajukan pertanyaan selama eksekusi
- Mendiskusikan pendekatan yang berbeda
- Mengarahkan ke solusi tertentu
- Memberikan umpan balik di tengah tugas
Settings > General > Follow-up behavior berbicara tentang apa yang dilakukannya, menanggapi umpan balik, dan membuat pengguna tetap mendapatkan informasi dari awal hingga akhir. Ini dapat diaktifkan di aplikasi Codex melalui Settings > General > Follow-up behavior.
Ini mengubah pengalaman dari memberikan perintah ke mesin menjadi berkolaborasi dengan rekan satu tim—pergeseran mendasar dalam cara manusia berinteraksi dengan sistem AI.
Kemampuan dan Keamanan Siber
model pertama yang diklasifikasikan OpenAI sebagai "Kemampuan Tinggi" untuk tugas-tugas terkait keamanan siber adalah model pertama yang diklasifikasikan OpenAI sebagai "Kemampuan Tinggi" untuk tugas-tugas terkait keamanan siber di bawah Kerangka Kesiapannya. Ini juga merupakan model pertama yang dilatih secara langsung untuk mengidentifikasi kerentanan perangkat lunak.
Sifat Penggunaan Ganda
Karena keamanan siber secara inheren bersifat penggunaan ganda (berguna untuk pertahanan dan serangan), OpenAI mengambil pendekatan kehati-hatian:
- Tidak ada bukti definitif bahwa ia dapat mengotomatiskan serangan siber ujung ke ujung
- Menerapkan tumpukan keamanan siber yang komprehensif
- Menerapkan pelatihan keselamatan dan pemantauan otomatis
- Memerlukan akses tepercaya untuk kemampuan tingkat lanjut
Akses Tepercaya untuk Keamanan Siber
OpenAI meluncurkan Akses Tepercaya untuk Keamanan Siber, program percontohan untuk:
- Mempercepat penelitian pertahanan siber
- Memberikan alat kepada pembela terlebih dahulu
- Mendukung ketahanan ekosistem
Komitmen $10 Juta
Membangun Program Hibah Keamanan Siber $1 Juta dari tahun 2023, OpenAI berkomitmen $10 juta dalam kredit API untuk mempercepat pertahanan siber, terutama untuk:
- Perangkat lunak sumber terbuka
- Sistem infrastruktur penting
- Penelitian keamanan dengan itikad baik
Agen Keamanan Aardvark
OpenAI memperluas beta pribadi Aardvark, agen penelitian keamanannya, sebagai penawaran pertama dalam rangkaian produk dan alat Keamanan Codex. Mereka juga bermitra dengan pengelola sumber terbuka untuk menyediakan pemindaian basis kode gratis untuk proyek yang banyak digunakan seperti Next.js.
Bagaimana OpenAI Menggunakan Codex untuk Membangun Codex
Pengembangan memberikan studi kasus yang menarik dalam penelitian yang dipercepat oleh AI.
Kasus Penggunaan Tim Penelitian
Tim penelitian menggunakan versi awal untuk:
- Memantau dan men-debug proses pelatihan untuk rilis
- Melacak pola sepanjang proses pelatihan
- Memberikan analisis mendalam tentang kualitas interaksi
- Mengusulkan perbaikan dan membangun aplikasi kaya untuk peneliti manusia
- Memahami secara tepat bagaimana perilaku model berbeda dari model sebelumnya
Kasus Penggunaan Tim Teknik
Tim teknik menggunakan Codex untuk:
- Mengoptimalkan dan menyesuaikan harness untuk <a2>GPT-5.3-Codex</a2>
- Mengidentifikasi bug rendering konteks yang memengaruhi pengguna
- Menemukan penyebab utama tingkat hit cache rendah
- Menskalakan klaster GPU secara dinamis untuk menyesuaikan dengan lonjakan lalu lintas
- Menjaga latensi stabil selama peluncuran
Kasus Penggunaan Ilmu Data
Selama pengujian alfa, seorang ilmuwan data bekerja dengan untuk:
- Membangun pengklasifikasi regex untuk memperkirakan frekuensi klarifikasi, respons pengguna, dan kemajuan tugas
- Menjalankan pengklasifikasi ini secara terukur di semua log sesi
- Membangun saluran data baru dan memvisualisasikan hasil dengan lebih kaya daripada alat dasbor standar
- Menganalisis hasil bersama-sama, dengan Codex meringkas wawasan utama dari ribuan titik data dalam waktu kurang dari tiga menit
Peningkatan Produktivitas
Hasilnya? Orang-orang yang membangun dengan Codex lebih bahagia karena agen tersebut:
- Lebih memahami niat mereka
- Membuat lebih banyak kemajuan per giliran
- Mengajukan lebih sedikit pertanyaan klarifikasi
Ketersediaan dan Harga
Cara Mengakses
segera tersedia segera tersedia untuk pengguna ChatGPT berbayar di semua permukaan Codex:
- Aplikasi desktop (macOS dan Windows)
- Antarmuka baris perintah (CLI)
- Ekstensi IDE (VS Code, JetBrains, dll.)
Paket Berlangganan
Untuk waktu yang terbatas, paket berbayar akan menerima dua kali lipat batas tarif normal.
Harga API
Saat peluncuran, GPT-5.3-Codex untuk GPT-5.3-Codex. Akses API digambarkan sebagai "diluncurkan segera" dan "akan hadir dalam beberapa minggu mendatang."
Sebagai referensi, harga API saat ini untuk model sebelumnya (GPT-5.2-Codex) adalah:
Infrastruktur
sistem NVIDIA GB200 NVL72 dirancang bersama, dilatih dengan, dan disajikan pada sistem NVIDIA GB200 NVL72—sebuah bukti kolaborasi erat antara OpenAI dan NVIDIA dalam mendorong batasan kemampuan AI.
Perbandingan dengan Pesaing
Rilis Claude Opus 4.6 dilakukan hanya beberapa menit setelah pengumuman Anthropic tentang Claude Opus 4.6, yang menyiapkan perbandingan langsung antara kedua model tersebut.
Kekuatan
- Terminal-Bench 2.0: 77,3 vs 65,4 Opus 4.6 (keunggulan +18,6%)
- "Keandalan tinggi, varian rendah" filosofi desain
- Kemampuan membangun diri sendiri (membantu menciptakan dirinya sendiri)
- Klasifikasi keamanan siber "Kemampuan Tinggi" pertama
Kekuatan Claude Opus 4.6
- Jendela konteks 1 juta token (jauh lebih besar)
- Tim Agen fungsi kolaboratif
- Keserbagunaan yang lebih luas di seluruh skenario pekerjaan pengetahuan
- Suhu kreativitas lebih tinggi (lebih banyak kepribadian)
Perbedaan Filosofi Desain
Gambaran yang Lebih Besar
agen tujuan umum yang dapat bernalar, membangun, dan mengeksekusi mewakili lebih dari sekadar peningkatan bertahap—ini adalah perubahan langkah menuju agen tujuan umum yang dapat bernalar, membangun, dan mengeksekusi di seluruh spektrum pekerjaan teknis dunia nyata.
Dari Agen Kode ke Agen Komputer
OpenAI secara eksplisit membingkai evolusi ini: "Codex bergerak melampaui penulisan kode untuk menggunakannya sebagai alat untuk mengoperasikan komputer dan menyelesaikan pekerjaan dari ujung ke ujung."
Ini adalah pergeseran yang mendalam. Apa yang dimulai sebagai fokus untuk menjadi "agen pengkodean terbaik" telah menjadi fondasi bagi kolaborator yang lebih umum di komputer—memperluas baik siapa yang dapat membangun maupun apa yang mungkin dengan AI.
Mempercepat Pengembangan AI
Fakta bahwa membantu membangun dirinya sendiri adalah pratinjau dari apa yang akan datang. Seperti yang dicatat oleh para peneliti OpenAI, "banyak peneliti dan insinyur di OpenAI menggambarkan pekerjaan mereka saat ini sebagai sesuatu yang secara fundamental berbeda dari apa yang terjadi hanya dua bulan lalu."
Ini menunjukkan bahwa kita memasuki periode percepatan pengembalian dalam pengembangan AI, di mana setiap generasi model membantu membangun generasi berikutnya—berpotensi memampatkan garis waktu dari tahun ke bulan.
Implikasi untuk Pengembang
Untuk pengembang perangkat lunak, implikasinya signifikan:
- Siklus pengembangan lebih cepat - AI menangani lebih banyak pekerjaan rutin
- Abstraksi tingkat lebih tinggi - Pengembang dapat fokus pada arsitektur dan desain
- Kolaborasi interaktif - Kurang seperti menggunakan alat, lebih seperti bekerja dengan rekan satu tim
- Kemampuan baru - Tugas yang sebelumnya membutuhkan pengetahuan khusus sekarang dapat diakses
Implikasi untuk Bisnis
Untuk bisnis, mewakili:
- Peningkatan produktivitas - Lebih banyak pekerjaan selesai dalam waktu yang lebih singkat
- Hambatan lebih rendah - Lebih sedikit keterampilan khusus yang dibutuhkan untuk tugas-tugas tertentu
- Pertimbangan keamanan baru - Klasifikasi keamanan siber "Kemampuan Tinggi" memerlukan tata kelola yang cermat
- Keunggulan kompetitif - Adopsi awal AI agentik yang kuat
Kesimpulan
adalah pencapaian penting dalam kecerdasan buatan. Ini menggabungkan:
- Kinerja pengkodean terbaik
- Kemampuan agentik tingkat lanjut
- Peningkatan diri (itu membantu membangun dirinya sendiri)
- Penggunaan komputer dunia nyata
Fakta bahwa itu berperan penting dalam penciptaannya sendiri berfungsi sebagai pencapaian teknis dan metafora ke mana AI menuju. Ketika model menjadi lebih mampu, mereka bukan hanya alat yang kita gunakan—mereka menjadi mitra dalam proses kreatif dan pengembangan itu sendiri.
Rilis simultan dengan Claude Opus 4.6, hanya beberapa menit terpisah, menggarisbawahi intensitas persaingan di ruang AI. Tetapi yang lebih penting, ini menandakan bahwa kita telah memasuki fase baru kemampuan AI—di mana agen dapat dengan andal menangani tugas-tugas kompleks dan berjangka panjang di seluruh spektrum pekerjaan komputer profesional.
Seperti yang dikatakan OpenAI: "Apa yang dimulai sebagai fokus untuk menjadi agen pengkodean terbaik telah menjadi fondasi bagi kolaborator yang lebih umum di komputer."
Pertanyaannya sekarang bukan hanya apa yang dapat dilakukan model ini—tetapi apa yang akan kita pilih untuk dibangun dengan mereka.
Sumber
Penafian: Artikel ini didasarkan pada informasi yang tersedia pada tanggal 6 Februari 2026. Spesifikasi, harga, dan ketersediaan dapat berubah. Silakan merujuk ke dokumentasi resmi OpenAI untuk informasi terbaru.