Pendahuluan

Pada tanggal 5 Februari 2026, OpenAI mengumumkan GPT-5.3-Codex, model pengkodean agentik tercanggih mereka hingga saat ini. Rilis ini menandai tonggak penting dalam kecerdasan buatan—tidak hanya karena kemampuan teknisnya yang mengesankan tetapi juga karena ini adalah model pertama yang berperan penting dalam menciptakan dirinya sendiri.

mewakili pergeseran mendasar dari alat penulisan kode menjadi kolaborator AI interaktif yang mampu menangani pekerjaan teknis dunia nyata berjangka panjang di seluruh spektrum tugas komputasi profesional.

Apa yang Membedakan ?

Model Agentik Sejati

Tidak seperti asisten pengkodean tradisional yang hanya menghasilkan cuplikan kode, dirancang sebagai model "agentik". Ini berarti ia dapat:

Mempertahankan konteks selama tugas berjalan lama yang berlangsung selama berjam-jam atau bahkan berhari-hari

Menggunakan alat secara mandiri, termasuk antarmuka baris perintah, sistem file, dan lingkungan pengembangan

Beradaptasi dan melakukan iterasi berdasarkan umpan balik waktu nyata tanpa kehilangan jejak

Menangani alur kerja multi-langkah yang kompleks yang memerlukan penelitian, perencanaan, dan eksekusi

Pencapaian Membangun Diri Sendiri

Mungkin aspek yang paling luar biasa dari adalah bahwa tim Codex menggunakan versi awal model untuk:

Men-debug proses pelatihannya sendiri

Mengelola penyebarannya sendiri

Mendiagnosis hasil pengujian dan evaluasi

Mengoptimalkan infrastruktur untuk rilis akhir

Siklus pengembangan yang mereferensikan diri sendiri ini menunjukkan bagaimana AI mulai mempercepat peningkatannya sendiri—sebuah tonggak yang digambarkan oleh para peneliti OpenAI sebagai "terkejut betapa banyak Codex mampu mempercepat pengembangannya sendiri."

Peningkatan Kinerja

25% lebih cepat 25% lebih cepat daripada pendahulunya (GPT-5.2-Codex), berkat peningkatan dalam infrastruktur dan tumpukan inferensi OpenAI. Peningkatan kecepatan ini memungkinkan kolaborasi waktu nyata yang lebih responsif dan siklus iterasi yang lebih cepat.

Kinerja Tolok Ukur: Data

mencapai kinerja terbaik di beberapa tolok ukur utama yang mengukur pengkodean, kemampuan agentik, dan penggunaan komputer dunia nyata.

SWE-Bench Pro

SWE-Bench Pro adalah evaluasi ketat terhadap rekayasa perangkat lunak dunia nyata yang mencakup empat bahasa pemrograman (Python, JavaScript, TypeScript, dan Go). Tidak seperti pendahulunya (SWE-Bench Verified) yang hanya menguji Python, SWE-Bench Pro dirancang agar lebih tahan terhadap kontaminasi dan relevan dengan industri.

Terminal-Bench 2.0

GPT-5.3-Codex pada Terminal-Bench 2.0 sangat signifikan. Tolok ukur ini mengukur keterampilan terminal yang dibutuhkan oleh agen pengkodean—menavigasi sistem file, menjalankan perintah, dan mengelola alur kerja pengembangan. Khususnya, GPT-5.3-Codex mencapai ini dengan token yang lebih sedikit daripada model sebelumnya, sehingga lebih efisien.

OSWorld-Verified

GPT-5.3-Codex pada OSWorld-Verified menunjukkan peningkatan dramatis dalam kemampuan penggunaan komputer. OSWorld adalah tolok ukur penggunaan komputer agentik di mana agen harus menyelesaikan tugas-tugas produktivitas di lingkungan desktop visual. Peningkatan besar ini menunjukkan bahwa GPT-5.3-Codex jauh lebih baik dalam menavigasi antarmuka dunia nyata daripada model sebelumnya.

Di Luar Kode: Agen Tujuan Umum

Meskipun unggul dalam pemrograman, kemampuannya jauh melampaui pembuatan kode. OpenAI memposisikannya sebagai agen yang dapat menangani "hampir semua yang dapat dilakukan pengembang dan profesional di komputer."

Dukungan Siklus Hidup Perangkat Lunak

Model ini dibangun untuk mendukung seluruh siklus hidup pengembangan perangkat lunak:

Debugging - Mengidentifikasi dan memperbaiki bug

Deploying - Mengelola rilis dan infrastruktur

Monitoring - Melacak kinerja dan metrik

Writing PRDs - Dokumen persyaratan produk

Editing copy - Dokumentasi dan teks pemasaran

User research - Menganalisis umpan balik pengguna

Testing - Menulis dan menjalankan rangkaian pengujian

Metrics analysis - Pengambilan keputusan berdasarkan data

Kemampuan Pekerjaan Pengetahuan

Pada GPT-5.3-Codex (evaluasi OpenAI tahun 2025 yang mengukur kinerja pada tugas-tugas pekerjaan pengetahuan di 44 pekerjaan), GPT-5.3-Codex menyamai kinerja GPT-5.2. Ini termasuk tugas-tugas seperti:

Membuat slide dan presentasi

Menganalisis data dalam spreadsheet

Manajemen dan organisasi dokumen

Penelitian dan sintesis

Contoh Pengembangan Web

Untuk mendemonstrasikan kemampuan model, OpenAI meminta untuk membangun dua game lengkap dari awal:

Game balap (versi 2 dari game peluncuran aplikasi Codex)

Game menyelam

Hanya menggunakan keterampilan "develop web game" dan perintah tindak lanjut generik seperti "fix the bug" atau "improve the game," melakukan iterasi secara mandiri atas jutaan token, membangun game yang sangat fungsional dan canggih.

Pemahaman Niat yang Lebih Baik

Dibandingkan dengan , model baru lebih memahami niat pengguna saat membangun situs web. Perintah sederhana atau kurang spesifik sekarang secara default mengarah ke situs dengan:

Lebih banyak fungsionalitas

Default yang masuk akal

Fitur siap produksi

Misalnya, ketika diminta untuk membuat halaman arahan harga, secara otomatis menampilkan paket tahunan sebagai harga bulanan diskon (membuat diskon menjadi jelas) dan membuat korsel testimonial yang bertransisi secara otomatis dengan tiga kutipan pengguna yang berbeda—menghasilkan desain yang lebih lengkap dan canggih.

Kolaborasi Interaktif

Salah satu peningkatan pengalaman pengguna yang paling signifikan adalah kemampuan untuk mengarahkan model saat ia bekerja.

Interaksi Waktu Nyata

Alih-alih menunggu output akhir, pengguna sekarang dapat:

Mengajukan pertanyaan selama eksekusi

Mendiskusikan pendekatan yang berbeda

Mengarahkan ke solusi tertentu

Memberikan umpan balik di tengah tugas

Settings > General > Follow-up behavior berbicara tentang apa yang dilakukannya, menanggapi umpan balik, dan membuat pengguna tetap mendapatkan informasi dari awal hingga akhir. Ini dapat diaktifkan di aplikasi Codex melalui Settings > General > Follow-up behavior.

Ini mengubah pengalaman dari memberikan perintah ke mesin menjadi berkolaborasi dengan rekan satu tim—pergeseran mendasar dalam cara manusia berinteraksi dengan sistem AI.

Kemampuan dan Keamanan Siber

model pertama yang diklasifikasikan OpenAI sebagai "Kemampuan Tinggi" untuk tugas-tugas terkait keamanan siber adalah model pertama yang diklasifikasikan OpenAI sebagai "Kemampuan Tinggi" untuk tugas-tugas terkait keamanan siber di bawah Kerangka Kesiapannya. Ini juga merupakan model pertama yang dilatih secara langsung untuk mengidentifikasi kerentanan perangkat lunak.

Sifat Penggunaan Ganda

Karena keamanan siber secara inheren bersifat penggunaan ganda (berguna untuk pertahanan dan serangan), OpenAI mengambil pendekatan kehati-hatian:

Tidak ada bukti definitif bahwa ia dapat mengotomatiskan serangan siber ujung ke ujung

Menerapkan tumpukan keamanan siber yang komprehensif

Menerapkan pelatihan keselamatan dan pemantauan otomatis

Memerlukan akses tepercaya untuk kemampuan tingkat lanjut

Akses Tepercaya untuk Keamanan Siber

OpenAI meluncurkan Akses Tepercaya untuk Keamanan Siber, program percontohan untuk:

Mempercepat penelitian pertahanan siber

Memberikan alat kepada pembela terlebih dahulu

Mendukung ketahanan ekosistem

Komitmen $10 Juta

Membangun Program Hibah Keamanan Siber $1 Juta dari tahun 2023, OpenAI berkomitmen $10 juta dalam kredit API untuk mempercepat pertahanan siber, terutama untuk:

Perangkat lunak sumber terbuka

Sistem infrastruktur penting

Penelitian keamanan dengan itikad baik

Agen Keamanan Aardvark

OpenAI memperluas beta pribadi Aardvark, agen penelitian keamanannya, sebagai penawaran pertama dalam rangkaian produk dan alat Keamanan Codex. Mereka juga bermitra dengan pengelola sumber terbuka untuk menyediakan pemindaian basis kode gratis untuk proyek yang banyak digunakan seperti Next.js.

Bagaimana OpenAI Menggunakan Codex untuk Membangun Codex

Pengembangan memberikan studi kasus yang menarik dalam penelitian yang dipercepat oleh AI.

Kasus Penggunaan Tim Penelitian

Tim penelitian menggunakan versi awal untuk:

Memantau dan men-debug proses pelatihan untuk rilis

Melacak pola sepanjang proses pelatihan

Memberikan analisis mendalam tentang kualitas interaksi

Mengusulkan perbaikan dan membangun aplikasi kaya untuk peneliti manusia

Memahami secara tepat bagaimana perilaku model berbeda dari model sebelumnya

Kasus Penggunaan Tim Teknik

Tim teknik menggunakan Codex untuk:

Mengoptimalkan dan menyesuaikan harness untuk <a2>GPT-5.3-Codex</a2>

Mengidentifikasi bug rendering konteks yang memengaruhi pengguna

Menemukan penyebab utama tingkat hit cache rendah

Menskalakan klaster GPU secara dinamis untuk menyesuaikan dengan lonjakan lalu lintas

Menjaga latensi stabil selama peluncuran

Kasus Penggunaan Ilmu Data

Selama pengujian alfa, seorang ilmuwan data bekerja dengan untuk:

Membangun pengklasifikasi regex untuk memperkirakan frekuensi klarifikasi, respons pengguna, dan kemajuan tugas

Menjalankan pengklasifikasi ini secara terukur di semua log sesi

Membangun saluran data baru dan memvisualisasikan hasil dengan lebih kaya daripada alat dasbor standar

Menganalisis hasil bersama-sama, dengan Codex meringkas wawasan utama dari ribuan titik data dalam waktu kurang dari tiga menit

Peningkatan Produktivitas

Hasilnya? Orang-orang yang membangun dengan Codex lebih bahagia karena agen tersebut:

Lebih memahami niat mereka

Membuat lebih banyak kemajuan per giliran

Mengajukan lebih sedikit pertanyaan klarifikasi

Ketersediaan dan Harga

Cara Mengakses

segera tersedia segera tersedia untuk pengguna ChatGPT berbayar di semua permukaan Codex:

Aplikasi desktop (macOS dan Windows)

Antarmuka baris perintah (CLI)

Ekstensi IDE (VS Code, JetBrains, dll.)

Antarmuka web

Paket Berlangganan

Untuk waktu yang terbatas, paket berbayar akan menerima dua kali lipat batas tarif normal.

Harga API

Saat peluncuran, GPT-5.3-Codex untuk GPT-5.3-Codex. Akses API digambarkan sebagai "diluncurkan segera" dan "akan hadir dalam beberapa minggu mendatang."

Sebagai referensi, harga API saat ini untuk model sebelumnya (GPT-5.2-Codex) adalah:

Infrastruktur

sistem NVIDIA GB200 NVL72 dirancang bersama, dilatih dengan, dan disajikan pada sistem NVIDIA GB200 NVL72—sebuah bukti kolaborasi erat antara OpenAI dan NVIDIA dalam mendorong batasan kemampuan AI.

Perbandingan dengan Pesaing

Rilis Claude Opus 4.6 dilakukan hanya beberapa menit setelah pengumuman Anthropic tentang Claude Opus 4.6, yang menyiapkan perbandingan langsung antara kedua model tersebut.

Kekuatan

Terminal-Bench 2.0: 77,3 vs 65,4 Opus 4.6 (keunggulan +18,6%)

25% lebih cepat kinerja

"Keandalan tinggi, varian rendah" filosofi desain

Kemampuan membangun diri sendiri (membantu menciptakan dirinya sendiri)

Klasifikasi keamanan siber "Kemampuan Tinggi" pertama

Kekuatan Claude Opus 4.6

Jendela konteks 1 juta token (jauh lebih besar)

Tim Agen fungsi kolaboratif

Keserbagunaan yang lebih luas di seluruh skenario pekerjaan pengetahuan

Suhu kreativitas lebih tinggi (lebih banyak kepribadian)

Perbedaan Filosofi Desain

Gambaran yang Lebih Besar

agen tujuan umum yang dapat bernalar, membangun, dan mengeksekusi mewakili lebih dari sekadar peningkatan bertahap—ini adalah perubahan langkah menuju agen tujuan umum yang dapat bernalar, membangun, dan mengeksekusi di seluruh spektrum pekerjaan teknis dunia nyata.

Dari Agen Kode ke Agen Komputer

OpenAI secara eksplisit membingkai evolusi ini: "Codex bergerak melampaui penulisan kode untuk menggunakannya sebagai alat untuk mengoperasikan komputer dan menyelesaikan pekerjaan dari ujung ke ujung."

Ini adalah pergeseran yang mendalam. Apa yang dimulai sebagai fokus untuk menjadi "agen pengkodean terbaik" telah menjadi fondasi bagi kolaborator yang lebih umum di komputer—memperluas baik siapa yang dapat membangun maupun apa yang mungkin dengan AI.

Mempercepat Pengembangan AI

Fakta bahwa membantu membangun dirinya sendiri adalah pratinjau dari apa yang akan datang. Seperti yang dicatat oleh para peneliti OpenAI, "banyak peneliti dan insinyur di OpenAI menggambarkan pekerjaan mereka saat ini sebagai sesuatu yang secara fundamental berbeda dari apa yang terjadi hanya dua bulan lalu."

Ini menunjukkan bahwa kita memasuki periode percepatan pengembalian dalam pengembangan AI, di mana setiap generasi model membantu membangun generasi berikutnya—berpotensi memampatkan garis waktu dari tahun ke bulan.

Implikasi untuk Pengembang

Untuk pengembang perangkat lunak, implikasinya signifikan:

Siklus pengembangan lebih cepat - AI menangani lebih banyak pekerjaan rutin

Abstraksi tingkat lebih tinggi - Pengembang dapat fokus pada arsitektur dan desain

Kolaborasi interaktif - Kurang seperti menggunakan alat, lebih seperti bekerja dengan rekan satu tim

Kemampuan baru - Tugas yang sebelumnya membutuhkan pengetahuan khusus sekarang dapat diakses

Implikasi untuk Bisnis

Untuk bisnis, mewakili:

Peningkatan produktivitas - Lebih banyak pekerjaan selesai dalam waktu yang lebih singkat

Hambatan lebih rendah - Lebih sedikit keterampilan khusus yang dibutuhkan untuk tugas-tugas tertentu

Pertimbangan keamanan baru - Klasifikasi keamanan siber "Kemampuan Tinggi" memerlukan tata kelola yang cermat

Keunggulan kompetitif - Adopsi awal AI agentik yang kuat

Kesimpulan

adalah pencapaian penting dalam kecerdasan buatan. Ini menggabungkan:

Kinerja pengkodean terbaik

Kemampuan agentik tingkat lanjut

Kolaborasi interaktif

Peningkatan diri (itu membantu membangun dirinya sendiri)

Penggunaan komputer dunia nyata

Fakta bahwa itu berperan penting dalam penciptaannya sendiri berfungsi sebagai pencapaian teknis dan metafora ke mana AI menuju. Ketika model menjadi lebih mampu, mereka bukan hanya alat yang kita gunakan—mereka menjadi mitra dalam proses kreatif dan pengembangan itu sendiri.

Rilis simultan dengan Claude Opus 4.6, hanya beberapa menit terpisah, menggarisbawahi intensitas persaingan di ruang AI. Tetapi yang lebih penting, ini menandakan bahwa kita telah memasuki fase baru kemampuan AI—di mana agen dapat dengan andal menangani tugas-tugas kompleks dan berjangka panjang di seluruh spektrum pekerjaan komputer profesional.

Seperti yang dikatakan OpenAI: "Apa yang dimulai sebagai fokus untuk menjadi agen pengkodean terbaik telah menjadi fondasi bagi kolaborator yang lebih umum di komputer."

Pertanyaannya sekarang bukan hanya apa yang dapat dilakukan model ini—tetapi apa yang akan kita pilih untuk dibangun dengan mereka.

Sumber

Introducing GPT-5.3-Codex - OpenAI Official Announcement

GPT-5.3-Codex System Card - OpenAI

GPT 5.3 Codex pricing, benchmarks, and features explained - eesel AI

OpenAI: New coding model GPT-5.3-Codex helped build itself - Mashable

With GPT-5.3-Codex, OpenAI pitches Codex for more than just writing code - Ars Technica

OpenAI launches new agentic coding model only minutes after Anthropic drops its own - TechCrunch

Opus 4.6 vs CODEX 5.3, first real comparison - Reddit

GPT 5.3 Codex vs. Opus 4.6: The Great Convergence - Every

OpenAI Platform Pricing

Codex Pricing

SWE-Bench Official Leaderboard

Penafian: Artikel ini didasarkan pada informasi yang tersedia pada tanggal 6 Februari 2026. Spesifikasi, harga, dan ketersediaan dapat berubah. Silakan merujuk ke dokumentasi resmi OpenAI untuk informasi terbaru.

GPT-5.3-Codex: Model Pemrograman Agentik OpenAI yang Paling Mumpuni