Giới thiệu
Vào ngày 5 tháng 2 năm 2026, OpenAI đã công bố GPT-5.3-Codex, mô hình lập trình agentic tiên tiến nhất của họ cho đến nay. Bản phát hành này đánh dấu một cột mốc quan trọng trong lĩnh vực trí tuệ nhân tạo—không chỉ vì các khả năng kỹ thuật ấn tượng mà còn vì đây là mô hình đầu tiên đóng vai trò quan trọng trong việc tự tạo ra chính nó.
thể hiện một sự thay đổi cơ bản từ một công cụ viết mã thành một cộng tác viên AI tương tác có khả năng xử lý công việc kỹ thuật thực tế, dài hạn trên toàn bộ phạm vi các tác vụ máy tính chuyên nghiệp.
Điều gì làm cho khác biệt?
Một mô hình Agentic thực thụ
Không giống như các trợ lý viết mã truyền thống chỉ đơn giản là tạo ra các đoạn mã, được thiết kế như một mô hình "agentic". Điều này có nghĩa là nó có thể:
- Duy trì ngữ cảnh trên các tác vụ chạy dài hạn kéo dài hàng giờ hoặc thậm chí hàng ngày
- Sử dụng các công cụ một cách tự động, bao gồm giao diện dòng lệnh, hệ thống tệp và môi trường phát triển
- Thích ứng và lặp lại dựa trên phản hồi theo thời gian thực mà không bị mất vị trí
- Xử lý các quy trình làm việc đa bước phức tạp đòi hỏi nghiên cứu, lập kế hoạch và thực hiện
Thành tích tự xây dựng
Có lẽ khía cạnh đáng chú ý nhất của là nhóm Codex đã sử dụng các phiên bản đầu của mô hình để:
- Gỡ lỗi quy trình đào tạo của chính nó
- Quản lý việc triển khai của chính nó
- Chẩn đoán kết quả kiểm tra và đánh giá
- Tối ưu hóa cơ sở hạ tầng cho bản phát hành cuối cùng
Chu kỳ phát triển tự tham chiếu này chứng minh cách AI đang bắt đầu tăng tốc độ cải thiện của chính nó—một cột mốc mà các nhà nghiên cứu của OpenAI mô tả là khiến họ "kinh ngạc về mức độ Codex có thể tăng tốc quá trình phát triển của chính nó".
Cải thiện hiệu suất
25% nhanh hơn 25% so với phiên bản tiền nhiệm của nó (GPT-5.2-Codex), nhờ những cải tiến trong cơ sở hạ tầng và ngăn xếp suy luận của OpenAI. Cải thiện tốc độ này cho phép cộng tác theo thời gian thực nhanh nhạy hơn và chu kỳ lặp nhanh hơn.
Hiệu suất điểm chuẩn: Dữ liệu
đạt được hiệu suất hiện đại trên một số điểm chuẩn chính đo lường khả năng lập trình, khả năng agentic và sử dụng máy tính thực tế.
SWE-Bench Pro
SWE-Bench Pro là một đánh giá nghiêm ngặt về kỹ thuật phần mềm thực tế trải rộng trên bốn ngôn ngữ lập trình (Python, JavaScript, TypeScript và Go). Không giống như phiên bản tiền nhiệm của nó (SWE-Bench Verified) chỉ kiểm tra Python, SWE-Bench Pro được thiết kế để có khả năng chống ô nhiễm cao hơn và phù hợp với ngành hơn.
Terminal-Bench 2.0
Sự GPT-5.3-Codex trên Terminal-Bench 2.0 đặc biệt quan trọng. Điểm chuẩn này đo lường các kỹ năng đầu cuối mà một tác nhân viết mã cần—điều hướng hệ thống tệp, thực thi lệnh và quản lý quy trình phát triển. Đáng chú ý, GPT-5.3-Codex đạt được điều này với ít token hơn bất kỳ mô hình nào trước đây, làm cho nó hiệu quả hơn.
OSWorld-Verified
Bước GPT-5.3-Codex trên OSWorld-Verified thể hiện khả năng sử dụng máy tính được cải thiện đáng kể. OSWorld là một điểm chuẩn sử dụng máy tính agentic, nơi các agent phải hoàn thành các tác vụ năng suất trong môi trường máy tính để bàn trực quan. Sự cải tiến lớn này cho thấy rằng GPT-5.3-Codex điều hướng các giao diện thực tế tốt hơn nhiều so với các mô hình trước đây.
Vượt xa mã: Một Agent đa năng
Mặc dù vượt trội trong việc lập trình, nhưng khả năng của nó còn vượt xa việc tạo mã. OpenAI định vị nó như một agent có thể xử lý "gần như mọi thứ mà các nhà phát triển và chuyên gia có thể làm trên máy tính".
Hỗ trợ vòng đời phần mềm
Mô hình này được xây dựng để hỗ trợ toàn bộ vòng đời phát triển phần mềm:
- Gỡ lỗi - Xác định và sửa lỗi
- Triển khai - Quản lý các bản phát hành và cơ sở hạ tầng
- Giám sát - Theo dõi hiệu suất và số liệu
- Viết PRD - Tài liệu yêu cầu sản phẩm
- Chỉnh sửa bản sao - Tài liệu và văn bản tiếp thị
- Nghiên cứu người dùng - Phân tích phản hồi của người dùng
- Kiểm tra - Viết và chạy bộ kiểm tra
- Phân tích số liệu - Ra quyết định dựa trên dữ liệu
Khả năng làm việc tri thức
Trên GPT-5.3-Codex (đánh giá năm 2025 của OpenAI đo lường hiệu suất trên các tác vụ làm việc tri thức trên 44 ngành nghề), GPT-5.3-Codex phù hợp với hiệu suất của GPT-5.2. Điều này bao gồm các nhiệm vụ như:
- Tạo các bộ slide và bản trình bày
- Phân tích dữ liệu trong bảng tính
- Quản lý và tổ chức tài liệu
Ví dụ về phát triển web
Để chứng minh khả năng của mô hình, OpenAI đã yêu cầu xây dựng hai trò chơi hoàn chỉnh từ đầu:
- Một trò chơi đua xe (phiên bản 2 của trò chơi ra mắt ứng dụng Codex)
Chỉ sử dụng kỹ năng "phát triển trò chơi web" và các lời nhắc theo dõi chung chung như "sửa lỗi" hoặc "cải thiện trò chơi", đã lặp lại một cách tự động trên hàng triệu token, xây dựng các trò chơi có chức năng cao và được trau chuốt.
Hiểu ý định tốt hơn
So với GPT-5.2-Codex, mô hình mới hiểu rõ hơn ý định của người dùng khi xây dựng trang web. Các lời nhắc đơn giản hoặc không được chỉ định hiện mặc định cho các trang web có:
- Các giá trị mặc định hợp lý
- Các tính năng sẵn sàng sản xuất
Ví dụ: khi được yêu cầu xây dựng một trang đích giá, tự động hiển thị gói hàng năm dưới dạng giá hàng tháng được chiết khấu (làm cho chiết khấu rõ ràng) và tạo một băng chuyền lời chứng thực tự động chuyển đổi với ba trích dẫn người dùng riêng biệt—dẫn đến một thiết kế hoàn chỉnh và trau chuốt hơn.
Cộng tác tương tác
Một trong những cải tiến trải nghiệm người dùng quan trọng nhất là khả năng điều khiển mô hình trong khi nó hoạt động.
Tương tác theo thời gian thực
Thay vì chờ đợi một đầu ra cuối cùng, người dùng giờ đây có thể:
- Đặt câu hỏi trong quá trình thực thi
- Thảo luận về các phương pháp khác nhau
- Hướng tới các giải pháp cụ thể
- Cung cấp phản hồi giữa nhiệm vụ
Cài đặt > Chung > Hành vi theo dõi nói về những gì nó đang làm, phản hồi phản hồi và giữ cho người dùng biết từ đầu đến cuối. Điều này có thể được kích hoạt trong ứng dụng Codex thông qua Cài đặt > Chung > Hành vi theo dõi.
Điều này biến trải nghiệm từ việc đưa ra lệnh cho một cỗ máy thành cộng tác với một đồng đội—một sự thay đổi cơ bản trong cách con người tương tác với các hệ thống AI.
Khả năng và an toàn về an ninh mạng
mô hình đầu tiên mà OpenAI phân loại là "Khả năng cao" cho các tác vụ liên quan đến an ninh mạng là mô hình đầu tiên mà OpenAI phân loại là "Khả năng cao" cho các tác vụ liên quan đến an ninh mạng theo Khung chuẩn bị của mình. Đây cũng là mô hình đầu tiên được đào tạo trực tiếp để xác định các lỗ hổng phần mềm.
Bản chất sử dụng kép
Bởi vì an ninh mạng vốn dĩ có tính chất sử dụng kép (hữu ích cho cả phòng thủ và tấn công), OpenAI đang thực hiện một cách tiếp cận phòng ngừa:
- Không có bằng chứng xác thực rằng nó có thể tự động hóa các cuộc tấn công mạng từ đầu đến cuối
- Triển khai ngăn xếp an toàn an ninh mạng toàn diện
- Thực hiện đào tạo an toàn và giám sát tự động
- Yêu cầu quyền truy cập đáng tin cậy cho các khả năng nâng cao
Truy cập đáng tin cậy cho Cyber
OpenAI đang ra mắt Truy cập đáng tin cậy cho Cyber, một chương trình thử nghiệm để:
- Đẩy nhanh nghiên cứu phòng thủ mạng
- Đưa các công cụ cho những người bảo vệ trước
- Hỗ trợ khả năng phục hồi của hệ sinh thái
Cam kết 10 triệu đô la
Dựa trên Chương trình tài trợ an ninh mạng trị giá 1 triệu đô la từ năm 2023, OpenAI đang cam kết 10 triệu đô la tín dụng API để tăng tốc phòng thủ mạng, đặc biệt là cho:
- Các hệ thống cơ sở hạ tầng quan trọng
- Nghiên cứu bảo mật thiện chí
Aardvark Security Agent
OpenAI đang mở rộng phiên bản beta riêng tư của Aardvark, agent nghiên cứu bảo mật của mình, như là sản phẩm đầu tiên trong bộ sản phẩm và công cụ Codex Security của mình. Họ cũng đang hợp tác với những người bảo trì mã nguồn mở để cung cấp dịch vụ quét codebase miễn phí cho các dự án được sử dụng rộng rãi như Next.js.
Cách OpenAI sử dụng Codex để xây dựng Codex
Việc phát triển cung cấp một nghiên cứu điển hình hấp dẫn về nghiên cứu được tăng tốc bằng AI.
Các trường hợp sử dụng của nhóm nghiên cứu
Nhóm nghiên cứu đã sử dụng các phiên bản đầu của để:
- Giám sát và gỡ lỗi quá trình đào tạo cho bản phát hành
- Theo dõi các mẫu trong suốt quá trình đào tạo
- Cung cấp phân tích sâu về chất lượng tương tác
- Đề xuất các bản sửa lỗi và xây dựng các ứng dụng phong phú cho các nhà nghiên cứu con người
- Hiểu chính xác cách hành vi của mô hình khác với các mô hình trước đó
Các trường hợp sử dụng của nhóm kỹ thuật
Nhóm kỹ thuật đã sử dụng Codex để:
- Tối ưu hóa và điều chỉnh harness cho GPT-5.3-Codex
- Xác định các lỗi kết xuất ngữ cảnh ảnh hưởng đến người dùng
- Tìm ra nguyên nhân gốc rễ của tỷ lệ truy cập bộ nhớ cache thấp
- Mở rộng quy mô các cụm GPU một cách linh hoạt để điều chỉnh theo sự tăng đột biến lưu lượng truy cập
- Giữ độ trễ ổn định trong quá trình ra mắt
Các trường hợp sử dụng khoa học dữ liệu
Trong quá trình thử nghiệm alpha, một nhà khoa học dữ liệu đã làm việc với để:
- Xây dựng các bộ phân loại regex để ước tính tần suất làm rõ, phản hồi của người dùng và tiến độ công việc
- Chạy các bộ phân loại này một cách có thể mở rộng trên tất cả các nhật ký phiên
- Xây dựng các quy trình dữ liệu mới và trực quan hóa kết quả phong phú hơn các công cụ bảng điều khiển tiêu chuẩn
- Đồng phân tích kết quả, với Codex tóm tắt những hiểu biết chính trên hàng ngàn điểm dữ liệu trong vòng chưa đầy ba phút
Tăng năng suất
Kết quả là gì? Những người xây dựng bằng Codex đã hài lòng hơn khi agent:
- Hiểu rõ hơn ý định của họ
- Đạt được nhiều tiến bộ hơn mỗi lượt
- Đặt ít câu hỏi làm rõ hơn
Tính khả dụng và giá cả
Cách truy cập
có sẵn ngay lập tức có sẵn ngay lập tức cho người dùng ChatGPT trả phí trên tất cả các bề mặt Codex:
- Ứng dụng dành cho máy tính để bàn (macOS và Windows)
- Giao diện dòng lệnh (CLI)
- Tiện ích mở rộng IDE (VS Code, JetBrains, v.v.)
Gói đăng ký
Trong một thời gian giới hạn, các gói trả phí sẽ nhận được gấp đôi giới hạn tỷ lệ bình thường.
Giá API
Tính đến thời điểm ra mắt, GPT-5.3-Codex cho GPT-5.3-Codex. Quyền truy cập API được mô tả là "sắp ra mắt" và "sẽ có trong những tuần tới".
Để tham khảo, giá API hiện tại cho mô hình trước đó (GPT-5.2-Codex) là:
Cơ sở hạ tầng
các hệ thống NVIDIA GB200 NVL72 được đồng thiết kế, đào tạo và phục vụ trên các hệ thống NVIDIA GB200 NVL72—một minh chứng cho sự hợp tác chặt chẽ giữa OpenAI và NVIDIA trong việc thúc đẩy các ranh giới của khả năng AI.
So sánh với các đối thủ cạnh tranh
Việc phát hành Claude Opus 4.6 diễn ra chỉ vài phút sau khi Anthropic công bố Claude Opus 4.6, tạo ra một so sánh trực tiếp giữa hai mô hình.
Điểm mạnh của
- Terminal-Bench 2.0: 77,3 so với 65,4 của Opus 4.6 (lợi thế +18,6%)
- "Độ tin cậy cao, phương sai thấp" triết lý thiết kế
- Khả năng tự xây dựng (giúp tạo ra chính nó)
- Phân loại an ninh mạng "Khả năng cao" đầu tiên
Điểm mạnh của Claude Opus 4.6
- Cửa sổ ngữ cảnh 1 triệu token (lớn hơn đáng kể)
- Chức năng cộng tác Nhóm Agent
- Tính linh hoạt rộng hơn trên các tình huống làm việc tri thức
- Nhiệt độ sáng tạo cao hơn (nhiều cá tính hơn)
Sự khác biệt trong triết lý thiết kế
Bức tranh lớn hơn
các agent đa năng có thể lý luận, xây dựng và thực thi không chỉ là một bản nâng cấp gia tăng—nó là một bước thay đổi hướng tới các agent đa năng có thể lý luận, xây dựng và thực thi trên toàn bộ phạm vi công việc kỹ thuật thực tế.
Từ Code Agent đến Computer Agent
OpenAI thể hiện rõ ràng sự phát triển này: "Codex đang vượt ra ngoài việc viết mã để sử dụng nó như một công cụ để vận hành máy tính và hoàn thành công việc từ đầu đến cuối."
Đây là một sự thay đổi sâu sắc. Những gì bắt đầu là tập trung vào việc trở thành "code agent tốt nhất" đã trở thành nền tảng cho một cộng tác viên chung chung hơn trên máy tính—mở rộng cả những người có thể xây dựng và những gì có thể với AI.
Đẩy nhanh quá trình phát triển AI
Thực tế là đã giúp xây dựng chính nó là một bản xem trước về những gì sắp tới. Như các nhà nghiên cứu của OpenAI lưu ý, "nhiều nhà nghiên cứu và kỹ sư tại OpenAI mô tả công việc của họ ngày nay về cơ bản khác với những gì nó đã từng chỉ hai tháng trước đây."
Điều này cho thấy chúng ta đang bước vào một giai đoạn lợi nhuận tăng tốc trong quá trình phát triển AI, nơi mỗi thế hệ mô hình giúp xây dựng thế hệ tiếp theo—có khả năng nén thời gian từ năm xuống còn vài tháng.
Ý nghĩa đối với các nhà phát triển
Đối với các nhà phát triển phần mềm, ý nghĩa là rất lớn:
- Chu kỳ phát triển nhanh hơn - AI xử lý nhiều công việc thường quy hơn
- Trừu tượng hóa cấp cao hơn - Các nhà phát triển có thể tập trung vào kiến trúc và thiết kế
- Cộng tác tương tác - Ít giống như sử dụng một công cụ, giống như làm việc với một đồng đội hơn
- Khả năng mới - Các tác vụ trước đây đòi hỏi kiến thức chuyên môn giờ đây có thể truy cập được
Ý nghĩa đối với doanh nghiệp
Đối với các doanh nghiệp, đại diện cho:
- Tăng năng suất - Nhiều công việc được hoàn thành trong thời gian ngắn hơn
- Rào cản thấp hơn - Cần ít kỹ năng chuyên môn hơn cho một số tác vụ nhất định
- Các cân nhắc về bảo mật mới - Phân loại an ninh mạng "Khả năng cao" đòi hỏi quản trị cẩn thận
- Lợi thế cạnh tranh - Áp dụng sớm AI agentic mạnh mẽ
Kết luận
là một thành tựu mang tính bước ngoặt trong trí tuệ nhân tạo. Nó kết hợp:
- Hiệu suất lập trình hiện đại
- Khả năng agentic nâng cao
- Tự cải thiện (nó đã giúp xây dựng chính nó)
Thực tế là nó đóng vai trò quan trọng trong quá trình tạo ra chính nó vừa là một thành tựu kỹ thuật vừa là một phép ẩn dụ cho hướng đi của AI. Khi các mô hình trở nên có khả năng hơn, chúng không chỉ là các công cụ mà chúng ta sử dụng—chúng đang trở thành đối tác trong quá trình sáng tạo và phát triển.
Việc phát hành đồng thời với Claude Opus 4.6, chỉ cách nhau vài phút, nhấn mạnh sự cạnh tranh gay gắt trong không gian AI. Nhưng quan trọng hơn, nó báo hiệu rằng chúng ta đã bước vào một giai đoạn mới về khả năng AI—một giai đoạn mà các agent có thể xử lý một cách đáng tin cậy các tác vụ phức tạp, dài hạn trên toàn bộ phạm vi công việc máy tính chuyên nghiệp.
Như OpenAI đã nói: "Những gì bắt đầu là tập trung vào việc trở thành code agent tốt nhất đã trở thành nền tảng cho một cộng tác viên chung chung hơn trên máy tính."
Câu hỏi bây giờ không chỉ là những mô hình này có thể làm gì—mà là chúng ta sẽ chọn xây dựng những gì với chúng.
Nguồn
Tuyên bố từ chối trách nhiệm: Bài viết này dựa trên thông tin có sẵn tính đến ngày 6 tháng 2 năm 2026. Thông số kỹ thuật, giá cả và tính khả dụng có thể thay đổi. Vui lòng tham khảo tài liệu chính thức của OpenAI để biết thông tin mới nhất.