소개

2026년 2월 5일, OpenAI는 자사의 최첨단 에이전트 코딩 모델인 GPT-5.3-Codex를 발표했습니다. 이번 릴리스는 인공지능 분야에서 획기적인 이정표가 될 뿐만 아니라, 인상적인 기술적 역량 외에도 자체적으로 만들어지는 데 중요한 역할을 한 최초의 모델이라는 점에서 의미가 큽니다.

는 단순한 코드 작성 도구에서 벗어나 전문적인 컴퓨팅 작업의 전체 스펙트럼에 걸쳐 장기간에 걸친 실제 기술 작업을 처리할 수 있는 대화형 AI 협력자로의 근본적인 변화를 나타냅니다.

의 차별점은 무엇일까요?

진정한 에이전트 모델

단순히 코드 스니펫을 생성하는 기존 코딩 지원 도구와 달리, 는 '에이전트' 모델로 설계되었습니다. 이는 다음을 의미합니다.

<a1>몇 시간 또는 며칠까지 지속되는 장기 실행 작업</a2>에서 컨텍스트를 유지할 수 있습니다.

명령줄 인터페이스, 파일 시스템 및 개발 환경을 포함한 도구를 자율적으로 사용할 수 있습니다.

실시간 피드백을 기반으로 적응하고 반복할 수 있습니다. 위치를 잃지 않고 말이죠.

연구, 계획 및 실행이 필요한 복잡한 다단계 워크플로를 처리할 수 있습니다.

자체 구축 성과

의 가장 놀라운 점은 Codex 팀이 모델의 초기 버전을 사용하여 다음을 수행했다는 것입니다.

자체 학습 프로세스 디버깅

자체 배포 관리

테스트 결과 및 평가 진단

최종 릴리스를 위한 인프라 최적화

이러한 자기 참조적인 개발 주기는 AI가 자체 개선을 가속화하기 시작하는 방식을 보여줍니다. OpenAI 연구원들은 "Codex가 자체 개발을 얼마나 가속화할 수 있었는지에 놀랐습니다."라고 표현했습니다.

성능 개선

25% 더 빠릅니다.는 OpenAI의 인프라 및 추론 스택 개선 덕분에 이전 모델(25% 더 빠릅니다.)보다 25% 더 빠릅니다. 이러한 속도 향상으로 더욱 즉각적인 실시간 협업과 더 빠른 반복 주기가 가능해졌습니다.

벤치마크 성능: 데이터

는 코딩, 에이전트 기능 및 실제 컴퓨터 사용을 측정하는 여러 주요 벤치마크에서 최첨단 성능을 달성했습니다.

SWE-Bench Pro

SWE-Bench Pro는 4가지 프로그래밍 언어(Python, JavaScript, TypeScript 및 Go)에 걸쳐 실제 소프트웨어 엔지니어링에 대한 엄격한 평가입니다. Python만 테스트한 이전 버전(SWE-Bench Verified)과 달리 SWE-Bench Pro는 오염에 더 강하고 업계 관련성이 높도록 설계되었습니다.

Terminal-Bench 2.0

GPT-5.3-Codex에서 GPT-5.3-Codex된 점은 특히 중요합니다. 이 벤치마크는 코딩 에이전트가 필요로 하는 터미널 기술, 즉 파일 시스템 탐색, 명령 실행 및 개발 워크플로 관리를 측정합니다. 특히, GPT-5.3-Codex는 이전 모델보다 더 적은 토큰으로 이를 달성하여 효율성을 높였습니다.

OSWorld-Verified

GPT-5.3-Codex에서 GPT-5.3-Codex한 것은 컴퓨터 사용 기능이 획기적으로 향상되었음을 보여줍니다. OSWorld는 에이전트가 시각적 데스크톱 환경에서 생산성 작업을 완료해야 하는 에이전트 컴퓨터 사용 벤치마크입니다. 이러한 엄청난 개선은 GPT-5.3-Codex가 이전 모델보다 실제 인터페이스를 훨씬 더 잘 탐색한다는 것을 보여줍니다.

코드를 넘어: 범용 에이전트

는 프로그래밍에 탁월하지만, 그 기능은 코드 생성을 훨씬 뛰어넘습니다. OpenAI는 이를 "개발자와 전문가가 컴퓨터에서 할 수 있는 거의 모든 것"을 처리할 수 있는 에이전트로 자리매김하고 있습니다.

소프트웨어 라이프사이클 지원

이 모델은 전체 소프트웨어 개발 라이프사이클을 지원하도록 구축되었습니다.

디버깅 - 버그 식별 및 수정

배포 - 릴리스 및 인프라 관리

모니터링 - 성능 및 메트릭 추적

PRD 작성 - 제품 요구 사항 문서

카피 편집 - 문서 및 마케팅 텍스트

사용자 연구 - 사용자 피드백 분석

테스트 - 테스트 스위트 작성 및 실행

메트릭 분석 - 데이터 기반 의사 결정

지식 작업 기능

GPT-5.2(44개 직업에 걸쳐 지식 작업에 대한 성능을 측정하는 OpenAI의 2025년 평가)에서 GPT-5.2는 GPT-5.2의 성능과 일치합니다. 여기에는 다음과 같은 작업이 포함됩니다.

슬라이드 데크 및 프레젠테이션 만들기

스프레드시트에서 데이터 분석

문서 관리 및 구성

연구 및 종합

웹 개발 예시

모델의 기능을 시연하기 위해 OpenAI는 에게 처음부터 두 개의 완전한 게임을 만들도록 요청했습니다.

레이싱 게임(Codex 앱 런칭 게임 버전 2)

다이빙 게임

"웹 게임 개발" 기술과 "버그 수정" 또는 "게임 개선"과 같은 일반적인 후속 프롬프트만 사용하여 는 수백만 개의 토큰에 걸쳐 자율적으로 반복하여 고도의 기능적이고 세련된 게임을 만들었습니다.

더 나은 의도 이해

에 비해 새로운 모델은 웹사이트를 구축할 때 사용자 의도를 더 잘 이해합니다. 이제 단순하거나 불분명한 프롬프트는 다음과 같은 사이트로 기본 설정됩니다.

더 많은 기능

합리적인 기본값

프로덕션 준비 기능

예를 들어, 가격 책정 랜딩 페이지를 구축하도록 요청받았을 때 는 연간 플랜을 할인된 월별 가격으로 자동 표시(할인 내용 명확히 표시)하고 세 개의 개별 사용자 인용문이 있는 자동 전환 추천 캐러셀을 만들어 더욱 완벽하고 세련된 디자인을 만들었습니다.

대화형 협업

가장 중요한 사용자 경험 개선 사항 중 하나는 모델이 작동하는 동안 모델을 조종할 수 있다는 것입니다.

실시간 상호 작용

최종 출력을 기다리는 대신 이제 사용자는 다음을 수행할 수 있습니다.

실행 중 질문하기

다양한 접근 방식 논의

특정 솔루션으로 유도

작업 중간에 피드백 제공

설정 > 일반 > 후속 동작는 수행 중인 작업을 설명하고, 피드백에 응답하며, 처음부터 끝까지 사용자를 참여시킵니다. 이는 Codex 앱에서 설정 > 일반 > 후속 동작을 통해 활성화할 수 있습니다.

이를 통해 경험은 기계에 명령을 내리는 것에서 팀원과 협력하는 것으로 변화하여 인간이 AI 시스템과 상호 작용하는 방식에 근본적인 변화를 가져옵니다.

사이버 보안 기능 및 안전

최초의 모델입니다.는 OpenAI가 준비 프레임워크에 따라 사이버 보안 관련 작업에 대해 "높은 역량"으로 분류한 최초의 모델입니다. 또한 소프트웨어 취약점을 식별하도록 직접 교육받은 최초의 모델이기도 합니다.

이중 용도 특성

사이버 보안은 본질적으로 이중 용도(방어와 공격 모두에 유용)이기 때문에 OpenAI는 예방적 접근 방식을 취하고 있습니다.

사이버 공격을 엔드 투 엔드로 자동화할 수 있다는 결정적인 증거는 없습니다.

포괄적인 사이버 보안 안전 스택 배포

안전 교육 및 자동 모니터링 구현

고급 기능에 대한 신뢰할 수 있는 액세스 요구

사이버 보안을 위한 신뢰할 수 있는 액세스

OpenAI는 다음을 위한 파일럿 프로그램인 사이버 보안을 위한 신뢰할 수 있는 액세스를 시작합니다.

사이버 방어 연구 가속화

방어자에게 먼저 도구 제공

생태계 회복력 지원

1천만 달러 약속

2023년의 1백만 달러 사이버 보안 보조금 프로그램을 기반으로 OpenAI는 사이버 방어, 특히 다음을 가속화하기 위해 1천만 달러의 API 크레딧을 약속합니다.

오픈 소스 소프트웨어

중요 인프라 시스템

선의의 보안 연구

Aardvark 보안 에이전트

OpenAI는 Codex 보안 제품 및 도구 모음의 첫 번째 제품인 보안 연구 에이전트인 Aardvark의 비공개 베타를 확장하고 있습니다. 또한 Next.js와 같이 널리 사용되는 프로젝트에 대한 무료 코드베이스 스캔을 제공하기 위해 오픈 소스 관리자와 협력하고 있습니다.

OpenAI가 Codex를 사용하여 Codex를 구축한 방법

의 개발은 AI 가속 연구의 흥미로운 사례 연구를 제공합니다.

연구팀 사용 사례

연구팀은 의 초기 버전을 사용하여 다음을 수행했습니다.

릴리스를 위한 학습 실행 모니터링 및 디버깅

학습 과정 전반에 걸쳐 패턴 추적

상호 작용 품질에 대한 심층 분석 제공

수정 제안 및 인간 연구자를 위한 풍부한 애플리케이션 구축

모델의 동작이 이전 모델과 어떻게 다른지 정확하게 이해

엔지니어링 팀 사용 사례

엔지니어링 팀은 Codex를 사용하여 다음을 수행했습니다.

<a2>GPT-5.3-Codex</a2>를 위해 하네스 최적화 및 조정

사용자에게 영향을 미치는 컨텍스트 렌더링 버그 식별

낮은 캐시 적중률의 근본 원인 파악

트래픽 급증에 맞춰 조정하기 위해 GPU 클러스터 동적 확장

출시 중 대기 시간 안정적으로 유지

데이터 과학 사용 사례

알파 테스트 중 데이터 과학자는 와 협력하여 다음을 수행했습니다.

설명, 사용자 응답 및 작업 진행 빈도를 추정하기 위해 정규식 분류기 구축

모든 세션 로그에서 이러한 분류기를 확장 가능하게 실행

표준 대시보드 도구보다 더 풍부하게 새로운 데이터 파이프라인 구축 및 결과 시각화

결과를 공동 분석하고 Codex는 3분 이내에 수천 개의 데이터 포인트에 대한 주요 통찰력을 요약

생산성 향상

결과는 어떠했을까요? Codex로 구축하는 사람들은 에이전트가 다음과 같아 더욱 만족했습니다.

자신의 의도를 더 잘 이해

턴당 더 많은 진행

명확성을 묻는 질문 감소

가용성 및 가격

액세스 방법

즉시 사용할 수 있습니다.는 모든 Codex 화면에서 유료 ChatGPT 사용자가 즉시 사용할 수 있습니다.

데스크톱 앱 (macOS 및 Windows)

명령줄 인터페이스(CLI)

IDE 확장 (VS Code, JetBrains 등)

웹 인터페이스

구독 플랜

제한된 기간 동안 유료 플랜은 일반 속도 제한의 두 배를 받게 됩니다.

API 가격

출시 시점에 OpenAI는 GPT-5.3-Codex에 대한 공식 API 가격을 발표하지 않았습니다. API 액세스는 "곧 출시 예정"이며 "다음 몇 주 안에 출시 예정"이라고 설명되어 있습니다.

참고로 이전 모델()에 대한 현재 API 가격은 다음과 같습니다.

인프라

NVIDIA GB200 NVL72 시스템는 OpenAI와 NVIDIA 간의 긴밀한 협력을 통해 AI 기능의 경계를 넓히기 위한 증거로 NVIDIA GB200 NVL72 시스템용으로 공동 설계, 학습 및 제공되었습니다.

경쟁사와의 비교

Claude Opus 4.6의 릴리스는 Anthropic이 Claude Opus 4.6을 발표한 지 불과 몇 분 후에 이루어졌으며, 두 모델 간의 즉각적인 비교가 이루어졌습니다.

강점

Terminal-Bench 2.0: 77.3 대 Opus 4.6의 65.4(+18.6% 우위)

<a2>25% 더 빠른</a2> 성능

"높은 신뢰성, 낮은 분산" 설계 철학

자체 구축 기능 (자체 생성에 도움)

최초의 "높은 역량" 사이버 보안 분류

Claude Opus 4.6 강점

100만 토큰 컨텍스트 창 (훨씬 더 큼)

에이전트 팀 협업 기능

지식 작업 시나리오 전반에 걸쳐 더 넓은 활용도

더 높은 창의성 온도 (더 많은 개성)

설계 철학 차이점

더 큰 그림

범용 에이전트를 향한 단계적 변화는 단순한 점진적인 업그레이드 그 이상입니다. 이는 실제 기술 작업의 전체 스펙트럼에서 추론, 구축 및 실행할 수 있는 범용 에이전트를 향한 단계적 변화입니다.

코드 에이전트에서 컴퓨터 에이전트로

OpenAI는 이러한 진화를 명시적으로 다음과 같이 설명합니다. "Codex는 코드를 작성하는 것을 넘어 컴퓨터를 작동하고 작업을 처음부터 끝까지 완료하는 도구로 사용하는 방향으로 나아가고 있습니다."

이는 심오한 변화입니다. "최고의 코딩 에이전트"가 되는 데 초점을 맞춘 것에서 컴퓨터에서 더 일반적인 협력자를 위한 기반이 되었습니다. 즉, 구축할 수 있는 사람과 AI로 가능한 것을 모두 확장합니다.

AI 개발 가속화

가 자체 구축을 도왔다는 사실은 앞으로 나올 내용을 미리 보여줍니다. OpenAI 연구원들이 언급했듯이 "OpenAI의 많은 연구원과 엔지니어들은 오늘날 자신들의 직업이 불과 두 달 전과는 근본적으로 다르다고 설명합니다."

이는 AI 개발에서 수익 가속화 기간에 접어들고 있음을 시사합니다. 각 세대의 모델이 다음 모델을 구축하는 데 도움이 되어 잠재적으로 타임라인을 몇 년에서 몇 달로 압축합니다.

개발자를 위한 의미

소프트웨어 개발자의 경우 그 의미는 상당합니다.

더 빠른 개발 주기 - AI가 더 많은 일상적인 작업을 처리합니다.

더 높은 수준의 추상화 - 개발자는 아키텍처 및 설계에 집중할 수 있습니다.

대화형 협업 - 도구를 사용하는 것보다 팀원과 협력하는 것과 같습니다.

새로운 기능 - 이전에는 전문 지식이 필요했던 작업에 이제 액세스할 수 있습니다.

기업을 위한 의미

기업의 경우 는 다음을 의미합니다.

생산성 향상 - 더 짧은 시간에 더 많은 작업을 완료합니다.

낮은 장벽 - 특정 작업에 필요한 전문 기술 감소

새로운 보안 고려 사항 - "높은 역량" 사이버 보안 분류에는 신중한 거버넌스가 필요합니다.

경쟁 우위 - 강력한 에이전트 AI의 조기 채택

결론

는 인공지능 분야에서 획기적인 성과입니다. 다음을 결합합니다.

최첨단 코딩 성능

고급 에이전트 기능

대화형 협업

자체 개선 (자체 생성에 도움)

실제 컴퓨터 사용

자체 생성에 중요한 역할을 했다는 사실은 기술적 성과이자 AI가 향하고 있는 방향에 대한 비유입니다. 모델의 기능이 향상됨에 따라 모델은 우리가 사용하는 도구일 뿐만 아니라 창의적이고 개발적인 프로세스 자체의 파트너가 되고 있습니다.

Claude Opus 4.6과의 동시 릴리스는 불과 몇 분 간격으로 이루어져 AI 공간의 경쟁 강도를 강조합니다. 그러나 더 중요한 것은 에이전트가 전문적인 컴퓨터 작업의 전체 스펙트럼에 걸쳐 복잡하고 장기적인 작업을 안정적으로 처리할 수 있는 새로운 단계의 AI 기능에 진입했다는 신호입니다.

OpenAI가 말했듯이 "최고의 코딩 에이전트가 되는 데 초점을 맞춘 것에서 컴퓨터에서 더 일반적인 협력자를 위한 기반이 되었습니다."

이제 문제는 이러한 모델이 무엇을 할 수 있는지 뿐만 아니라 우리가 그 모델로 무엇을 구축할 것인지입니다.