Giới thiệu

Vào ngày 5 tháng 2 năm 2026, OpenAI đã công bố GPT-5.3-Codex, mô hình lập trình agentic tiên tiến nhất của họ cho đến nay. Bản phát hành này đánh dấu một cột mốc quan trọng trong lĩnh vực trí tuệ nhân tạo—không chỉ vì các khả năng kỹ thuật ấn tượng mà còn vì đây là mô hình đầu tiên đóng vai trò quan trọng trong việc tự tạo ra chính nó.

thể hiện một sự thay đổi cơ bản từ một công cụ viết mã thành một cộng tác viên AI tương tác có khả năng xử lý công việc kỹ thuật thực tế, dài hạn trên toàn bộ phạm vi các tác vụ máy tính chuyên nghiệp.

Điều gì làm cho khác biệt?

Một mô hình Agentic thực thụ

Không giống như các trợ lý viết mã truyền thống chỉ đơn giản là tạo ra các đoạn mã, được thiết kế như một mô hình "agentic". Điều này có nghĩa là nó có thể:

Duy trì ngữ cảnh trên các tác vụ chạy dài hạn kéo dài hàng giờ hoặc thậm chí hàng ngày

Sử dụng các công cụ một cách tự động, bao gồm giao diện dòng lệnh, hệ thống tệp và môi trường phát triển

Thích ứng và lặp lại dựa trên phản hồi theo thời gian thực mà không bị mất vị trí

Xử lý các quy trình làm việc đa bước phức tạp đòi hỏi nghiên cứu, lập kế hoạch và thực hiện

Thành tích tự xây dựng

Có lẽ khía cạnh đáng chú ý nhất của là nhóm Codex đã sử dụng các phiên bản đầu của mô hình để:

Gỡ lỗi quy trình đào tạo của chính nó

Quản lý việc triển khai của chính nó

Chẩn đoán kết quả kiểm tra và đánh giá

Tối ưu hóa cơ sở hạ tầng cho bản phát hành cuối cùng

Chu kỳ phát triển tự tham chiếu này chứng minh cách AI đang bắt đầu tăng tốc độ cải thiện của chính nó—một cột mốc mà các nhà nghiên cứu của OpenAI mô tả là khiến họ "kinh ngạc về mức độ Codex có thể tăng tốc quá trình phát triển của chính nó".

Cải thiện hiệu suất

25% nhanh hơn 25% so với phiên bản tiền nhiệm của nó (GPT-5.2-Codex), nhờ những cải tiến trong cơ sở hạ tầng và ngăn xếp suy luận của OpenAI. Cải thiện tốc độ này cho phép cộng tác theo thời gian thực nhanh nhạy hơn và chu kỳ lặp nhanh hơn.

Hiệu suất điểm chuẩn: Dữ liệu

đạt được hiệu suất hiện đại trên một số điểm chuẩn chính đo lường khả năng lập trình, khả năng agentic và sử dụng máy tính thực tế.

SWE-Bench Pro

SWE-Bench Pro là một đánh giá nghiêm ngặt về kỹ thuật phần mềm thực tế trải rộng trên bốn ngôn ngữ lập trình (Python, JavaScript, TypeScript và Go). Không giống như phiên bản tiền nhiệm của nó (SWE-Bench Verified) chỉ kiểm tra Python, SWE-Bench Pro được thiết kế để có khả năng chống ô nhiễm cao hơn và phù hợp với ngành hơn.

Terminal-Bench 2.0

Sự GPT-5.3-Codex trên Terminal-Bench 2.0 đặc biệt quan trọng. Điểm chuẩn này đo lường các kỹ năng đầu cuối mà một tác nhân viết mã cần—điều hướng hệ thống tệp, thực thi lệnh và quản lý quy trình phát triển. Đáng chú ý, GPT-5.3-Codex đạt được điều này với ít token hơn bất kỳ mô hình nào trước đây, làm cho nó hiệu quả hơn.

OSWorld-Verified

Bước GPT-5.3-Codex trên OSWorld-Verified thể hiện khả năng sử dụng máy tính được cải thiện đáng kể. OSWorld là một điểm chuẩn sử dụng máy tính agentic, nơi các agent phải hoàn thành các tác vụ năng suất trong môi trường máy tính để bàn trực quan. Sự cải tiến lớn này cho thấy rằng GPT-5.3-Codex điều hướng các giao diện thực tế tốt hơn nhiều so với các mô hình trước đây.

Vượt xa mã: Một Agent đa năng

Mặc dù vượt trội trong việc lập trình, nhưng khả năng của nó còn vượt xa việc tạo mã. OpenAI định vị nó như một agent có thể xử lý "gần như mọi thứ mà các nhà phát triển và chuyên gia có thể làm trên máy tính".

Hỗ trợ vòng đời phần mềm

Mô hình này được xây dựng để hỗ trợ toàn bộ vòng đời phát triển phần mềm:

Gỡ lỗi - Xác định và sửa lỗi

Triển khai - Quản lý các bản phát hành và cơ sở hạ tầng

Giám sát - Theo dõi hiệu suất và số liệu

Viết PRD - Tài liệu yêu cầu sản phẩm

Chỉnh sửa bản sao - Tài liệu và văn bản tiếp thị

Nghiên cứu người dùng - Phân tích phản hồi của người dùng

Kiểm tra - Viết và chạy bộ kiểm tra

Phân tích số liệu - Ra quyết định dựa trên dữ liệu

Khả năng làm việc tri thức

Trên GPT-5.3-Codex (đánh giá năm 2025 của OpenAI đo lường hiệu suất trên các tác vụ làm việc tri thức trên 44 ngành nghề), GPT-5.3-Codex phù hợp với hiệu suất của GPT-5.2. Điều này bao gồm các nhiệm vụ như:

Tạo các bộ slide và bản trình bày

Phân tích dữ liệu trong bảng tính

Quản lý và tổ chức tài liệu

Nghiên cứu và tổng hợp

Ví dụ về phát triển web

Để chứng minh khả năng của mô hình, OpenAI đã yêu cầu xây dựng hai trò chơi hoàn chỉnh từ đầu:

Một trò chơi đua xe (phiên bản 2 của trò chơi ra mắt ứng dụng Codex)

Một trò chơi lặn

Chỉ sử dụng kỹ năng "phát triển trò chơi web" và các lời nhắc theo dõi chung chung như "sửa lỗi" hoặc "cải thiện trò chơi", đã lặp lại một cách tự động trên hàng triệu token, xây dựng các trò chơi có chức năng cao và được trau chuốt.

Hiểu ý định tốt hơn

So với GPT-5.2-Codex, mô hình mới hiểu rõ hơn ý định của người dùng khi xây dựng trang web. Các lời nhắc đơn giản hoặc không được chỉ định hiện mặc định cho các trang web có:

Nhiều chức năng hơn

Các giá trị mặc định hợp lý

Các tính năng sẵn sàng sản xuất

Ví dụ: khi được yêu cầu xây dựng một trang đích giá, tự động hiển thị gói hàng năm dưới dạng giá hàng tháng được chiết khấu (làm cho chiết khấu rõ ràng) và tạo một băng chuyền lời chứng thực tự động chuyển đổi với ba trích dẫn người dùng riêng biệt—dẫn đến một thiết kế hoàn chỉnh và trau chuốt hơn.

Cộng tác tương tác

Một trong những cải tiến trải nghiệm người dùng quan trọng nhất là khả năng điều khiển mô hình trong khi nó hoạt động.

Tương tác theo thời gian thực

Thay vì chờ đợi một đầu ra cuối cùng, người dùng giờ đây có thể:

Đặt câu hỏi trong quá trình thực thi

Thảo luận về các phương pháp khác nhau

Hướng tới các giải pháp cụ thể

Cung cấp phản hồi giữa nhiệm vụ

Cài đặt > Chung > Hành vi theo dõi nói về những gì nó đang làm, phản hồi phản hồi và giữ cho người dùng biết từ đầu đến cuối. Điều này có thể được kích hoạt trong ứng dụng Codex thông qua Cài đặt > Chung > Hành vi theo dõi.

Điều này biến trải nghiệm từ việc đưa ra lệnh cho một cỗ máy thành cộng tác với một đồng đội—một sự thay đổi cơ bản trong cách con người tương tác với các hệ thống AI.

Khả năng và an toàn về an ninh mạng

mô hình đầu tiên mà OpenAI phân loại là "Khả năng cao" cho các tác vụ liên quan đến an ninh mạng là mô hình đầu tiên mà OpenAI phân loại là "Khả năng cao" cho các tác vụ liên quan đến an ninh mạng theo Khung chuẩn bị của mình. Đây cũng là mô hình đầu tiên được đào tạo trực tiếp để xác định các lỗ hổng phần mềm.

Bản chất sử dụng kép

Bởi vì an ninh mạng vốn dĩ có tính chất sử dụng kép (hữu ích cho cả phòng thủ và tấn công), OpenAI đang thực hiện một cách tiếp cận phòng ngừa:

Không có bằng chứng xác thực rằng nó có thể tự động hóa các cuộc tấn công mạng từ đầu đến cuối

Triển khai ngăn xếp an toàn an ninh mạng toàn diện

Thực hiện đào tạo an toàn và giám sát tự động

Yêu cầu quyền truy cập đáng tin cậy cho các khả năng nâng cao

Truy cập đáng tin cậy cho Cyber

OpenAI đang ra mắt Truy cập đáng tin cậy cho Cyber, một chương trình thử nghiệm để:

Đẩy nhanh nghiên cứu phòng thủ mạng

Đưa các công cụ cho những người bảo vệ trước

Hỗ trợ khả năng phục hồi của hệ sinh thái

Cam kết 10 triệu đô la

Dựa trên Chương trình tài trợ an ninh mạng trị giá 1 triệu đô la từ năm 2023, OpenAI đang cam kết 10 triệu đô la tín dụng API để tăng tốc phòng thủ mạng, đặc biệt là cho:

Phần mềm nguồn mở

Các hệ thống cơ sở hạ tầng quan trọng

Nghiên cứu bảo mật thiện chí

Aardvark Security Agent

OpenAI đang mở rộng phiên bản beta riêng tư của Aardvark, agent nghiên cứu bảo mật của mình, như là sản phẩm đầu tiên trong bộ sản phẩm và công cụ Codex Security của mình. Họ cũng đang hợp tác với những người bảo trì mã nguồn mở để cung cấp dịch vụ quét codebase miễn phí cho các dự án được sử dụng rộng rãi như Next.js.

Cách OpenAI sử dụng Codex để xây dựng Codex

Việc phát triển cung cấp một nghiên cứu điển hình hấp dẫn về nghiên cứu được tăng tốc bằng AI.

Các trường hợp sử dụng của nhóm nghiên cứu

Nhóm nghiên cứu đã sử dụng các phiên bản đầu của để:

Giám sát và gỡ lỗi quá trình đào tạo cho bản phát hành

Theo dõi các mẫu trong suốt quá trình đào tạo

Cung cấp phân tích sâu về chất lượng tương tác

Đề xuất các bản sửa lỗi và xây dựng các ứng dụng phong phú cho các nhà nghiên cứu con người

Hiểu chính xác cách hành vi của mô hình khác với các mô hình trước đó

Các trường hợp sử dụng của nhóm kỹ thuật

Nhóm kỹ thuật đã sử dụng Codex để:

Tối ưu hóa và điều chỉnh harness cho GPT-5.3-Codex

Xác định các lỗi kết xuất ngữ cảnh ảnh hưởng đến người dùng

Tìm ra nguyên nhân gốc rễ của tỷ lệ truy cập bộ nhớ cache thấp

Mở rộng quy mô các cụm GPU một cách linh hoạt để điều chỉnh theo sự tăng đột biến lưu lượng truy cập

Giữ độ trễ ổn định trong quá trình ra mắt

Các trường hợp sử dụng khoa học dữ liệu

Trong quá trình thử nghiệm alpha, một nhà khoa học dữ liệu đã làm việc với để:

Xây dựng các bộ phân loại regex để ước tính tần suất làm rõ, phản hồi của người dùng và tiến độ công việc

Chạy các bộ phân loại này một cách có thể mở rộng trên tất cả các nhật ký phiên

Xây dựng các quy trình dữ liệu mới và trực quan hóa kết quả phong phú hơn các công cụ bảng điều khiển tiêu chuẩn

Đồng phân tích kết quả, với Codex tóm tắt những hiểu biết chính trên hàng ngàn điểm dữ liệu trong vòng chưa đầy ba phút

Tăng năng suất

Kết quả là gì? Những người xây dựng bằng Codex đã hài lòng hơn khi agent:

Hiểu rõ hơn ý định của họ

Đạt được nhiều tiến bộ hơn mỗi lượt

Đặt ít câu hỏi làm rõ hơn

Tính khả dụng và giá cả

Cách truy cập

có sẵn ngay lập tức có sẵn ngay lập tức cho người dùng ChatGPT trả phí trên tất cả các bề mặt Codex:

Ứng dụng dành cho máy tính để bàn (macOS và Windows)

Giao diện dòng lệnh (CLI)

Tiện ích mở rộng IDE (VS Code, JetBrains, v.v.)

Giao diện web

Gói đăng ký

Trong một thời gian giới hạn, các gói trả phí sẽ nhận được gấp đôi giới hạn tỷ lệ bình thường.

Giá API

Tính đến thời điểm ra mắt, GPT-5.3-Codex cho GPT-5.3-Codex. Quyền truy cập API được mô tả là "sắp ra mắt" và "sẽ có trong những tuần tới".

Để tham khảo, giá API hiện tại cho mô hình trước đó (GPT-5.2-Codex) là:

Cơ sở hạ tầng

các hệ thống NVIDIA GB200 NVL72 được đồng thiết kế, đào tạo và phục vụ trên các hệ thống NVIDIA GB200 NVL72—một minh chứng cho sự hợp tác chặt chẽ giữa OpenAI và NVIDIA trong việc thúc đẩy các ranh giới của khả năng AI.

So sánh với các đối thủ cạnh tranh

Việc phát hành Claude Opus 4.6 diễn ra chỉ vài phút sau khi Anthropic công bố Claude Opus 4.6, tạo ra một so sánh trực tiếp giữa hai mô hình.

Điểm mạnh của

Terminal-Bench 2.0: 77,3 so với 65,4 của Opus 4.6 (lợi thế +18,6%)

Hiệu suất nhanh hơn 25%

"Độ tin cậy cao, phương sai thấp" triết lý thiết kế

Khả năng tự xây dựng (giúp tạo ra chính nó)

Phân loại an ninh mạng "Khả năng cao" đầu tiên

Điểm mạnh của Claude Opus 4.6

Cửa sổ ngữ cảnh 1 triệu token (lớn hơn đáng kể)

Chức năng cộng tác Nhóm Agent

Tính linh hoạt rộng hơn trên các tình huống làm việc tri thức

Nhiệt độ sáng tạo cao hơn (nhiều cá tính hơn)

Sự khác biệt trong triết lý thiết kế

Bức tranh lớn hơn

các agent đa năng có thể lý luận, xây dựng và thực thi không chỉ là một bản nâng cấp gia tăng—nó là một bước thay đổi hướng tới các agent đa năng có thể lý luận, xây dựng và thực thi trên toàn bộ phạm vi công việc kỹ thuật thực tế.

Từ Code Agent đến Computer Agent

OpenAI thể hiện rõ ràng sự phát triển này: "Codex đang vượt ra ngoài việc viết mã để sử dụng nó như một công cụ để vận hành máy tính và hoàn thành công việc từ đầu đến cuối."

Đây là một sự thay đổi sâu sắc. Những gì bắt đầu là tập trung vào việc trở thành "code agent tốt nhất" đã trở thành nền tảng cho một cộng tác viên chung chung hơn trên máy tính—mở rộng cả những người có thể xây dựng và những gì có thể với AI.

Đẩy nhanh quá trình phát triển AI

Thực tế là đã giúp xây dựng chính nó là một bản xem trước về những gì sắp tới. Như các nhà nghiên cứu của OpenAI lưu ý, "nhiều nhà nghiên cứu và kỹ sư tại OpenAI mô tả công việc của họ ngày nay về cơ bản khác với những gì nó đã từng chỉ hai tháng trước đây."

Điều này cho thấy chúng ta đang bước vào một giai đoạn lợi nhuận tăng tốc trong quá trình phát triển AI, nơi mỗi thế hệ mô hình giúp xây dựng thế hệ tiếp theo—có khả năng nén thời gian từ năm xuống còn vài tháng.

Ý nghĩa đối với các nhà phát triển

Đối với các nhà phát triển phần mềm, ý nghĩa là rất lớn:

Chu kỳ phát triển nhanh hơn - AI xử lý nhiều công việc thường quy hơn

Trừu tượng hóa cấp cao hơn - Các nhà phát triển có thể tập trung vào kiến trúc và thiết kế

Cộng tác tương tác - Ít giống như sử dụng một công cụ, giống như làm việc với một đồng đội hơn

Khả năng mới - Các tác vụ trước đây đòi hỏi kiến thức chuyên môn giờ đây có thể truy cập được

Ý nghĩa đối với doanh nghiệp

Đối với các doanh nghiệp, đại diện cho:

Tăng năng suất - Nhiều công việc được hoàn thành trong thời gian ngắn hơn

Rào cản thấp hơn - Cần ít kỹ năng chuyên môn hơn cho một số tác vụ nhất định

Các cân nhắc về bảo mật mới - Phân loại an ninh mạng "Khả năng cao" đòi hỏi quản trị cẩn thận

Lợi thế cạnh tranh - Áp dụng sớm AI agentic mạnh mẽ

Kết luận

là một thành tựu mang tính bước ngoặt trong trí tuệ nhân tạo. Nó kết hợp:

Hiệu suất lập trình hiện đại

Khả năng agentic nâng cao

Cộng tác tương tác

Tự cải thiện (nó đã giúp xây dựng chính nó)

Sử dụng máy tính thực tế

Thực tế là nó đóng vai trò quan trọng trong quá trình tạo ra chính nó vừa là một thành tựu kỹ thuật vừa là một phép ẩn dụ cho hướng đi của AI. Khi các mô hình trở nên có khả năng hơn, chúng không chỉ là các công cụ mà chúng ta sử dụng—chúng đang trở thành đối tác trong quá trình sáng tạo và phát triển.

Việc phát hành đồng thời với Claude Opus 4.6, chỉ cách nhau vài phút, nhấn mạnh sự cạnh tranh gay gắt trong không gian AI. Nhưng quan trọng hơn, nó báo hiệu rằng chúng ta đã bước vào một giai đoạn mới về khả năng AI—một giai đoạn mà các agent có thể xử lý một cách đáng tin cậy các tác vụ phức tạp, dài hạn trên toàn bộ phạm vi công việc máy tính chuyên nghiệp.

Như OpenAI đã nói: "Những gì bắt đầu là tập trung vào việc trở thành code agent tốt nhất đã trở thành nền tảng cho một cộng tác viên chung chung hơn trên máy tính."

Câu hỏi bây giờ không chỉ là những mô hình này có thể làm gì—mà là chúng ta sẽ chọn xây dựng những gì với chúng.

Nguồn

Giới thiệu GPT-5.3-Codex - Thông báo chính thức của OpenAI

Thẻ hệ thống GPT-5.3-Codex - OpenAI

GPT 5.3 Codex: Giá cả, điểm chuẩn và các tính năng được giải thích - eesel AI

OpenAI: Mô hình lập trình mới GPT-5.3-Codex đã giúp xây dựng chính nó - Mashable

Với GPT-5.3-Codex, OpenAI quảng bá Codex không chỉ để viết mã - Ars Technica

OpenAI ra mắt mô hình lập trình agentic mới chỉ vài phút sau khi Anthropic tung ra mô hình của riêng mình - TechCrunch

Opus 4.6 so với CODEX 5.3, so sánh thực tế đầu tiên - Reddit

GPT 5.3 Codex so với Opus 4.6: Sự hội tụ lớn - Every

Giá nền tảng OpenAI

Giá Codex

Bảng xếp hạng chính thức của SWE-Bench

Tuyên bố từ chối trách nhiệm: Bài viết này dựa trên thông tin có sẵn tính đến ngày 6 tháng 2 năm 2026. Thông số kỹ thuật, giá cả và tính khả dụng có thể thay đổi. Vui lòng tham khảo tài liệu chính thức của OpenAI để biết thông tin mới nhất.

GPT-5.3-Codex: Mô hình Lập trình Agentic Mạnh mẽ Nhất của OpenAI