최근 수정 시각 : 2025-06-27 07:29:45

CUA

Computer Using Agent에서 넘어옴

파일:OpenAI-black-wordmark-crop.svg파일:OpenAI-white-wordmark-crop.svg
{{{#!wiki style="margin:0 -10px -5px"
{{{#000,#fff {{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
{{{#000,#e5e5e5
<colkeepall> 제품군
서비스 ChatGPT(ChatGPT/기능 · 사용법) · OpenAI(인공지능) · Operator · Codex · Sora · Atlas
모델
GPT
GPT-1 · GPT-2 · GPT-3 · GPT-4 · gpt-oss · GPT-5 · GPT-6개발 중
o-시리즈
o1 · o3 · o4-mini
DALL·E · Codex · CLIP · Whisper · Voice Engine · Sora · SearchGPT · CUA
관련 인물
일론 머스크 · 샘 올트먼 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 · 다리오 아모데이
}}}}}}}}}}}}}}} ||
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px);"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break: keep-all;"
삼성 갤럭시 Galaxy AI
MainFunc Genspark
Apple Apple Intelligence
OpenAI Operator(모델: CUA)
Monica Manus AI
구글 Google Jarvis
취소선: 미출시 }}}}}}}}}
CUA
Computer Using Agent
출시일 2025년 1월 23일
개발사 OpenAI
기능 지능형 에이전트
사용처 Operator
하드웨어 NVIDIA H100
라이선스 Proprietary Software
링크 파일:홈페이지 아이콘.svg

1. 개요2. 상세3. 성능

1. 개요

OpenAI가 개발한 에이전트 기능 특화 인공지능 모델. Operator에 적용되었다.

2. 상세

GPT-4o의 비전 기능과 추론 기능을 통합하여 GUI를 인식하고 이와 상호작용하도록 학습되었다.

CUA는 픽셀 데이터를 처리하여 화면에서 무슨 일이 일어나고 있는지 이해하고, 가상 마우스와 키보드를 사용하여 작업을 수행한다.

사용자의 지시가 주어지면 CUA는 인식, 추론, 행동의 반복 루프를 통해 작동한다.
- 인식: 컴퓨터의 스크린샷이 입력되어 컴퓨터의 현재 상태를 파악한다.
- 추론: CUA는 현재 및 과거의 스크린샷과 동작을 고려하여 CoT를 사용하여 다음 단계를 추론하여 도출한다.
- 행동: 작업이 완료되었거나 사용자 입력이 필요하다고 판단할 때까지 클릭, 스크롤 또는 타이핑과 같은 동작을 수행한다.

2025년 5월 23일부로 o3 기반으로 교체되었다. 다만, API로 배포되는 CUA는 여전히 GPT-4o 기반일것이라고 한다.#

3. 성능

벤치마크 결과 컴퓨터 사용 분야에서 OSWorld에서 38.1%의 성공률, 웹 기반 작업의 경우 WebArena에서 58.1%, WebVoyager에서 87%의 성공률을 달성했다.