최근 수정 시각 : 2025-12-26 00:52:09

GPT-5


파일:OpenAI-black-wordmark-crop.svg파일:OpenAI-white-wordmark-crop.svg
{{{#!wiki style="margin:0 -10px -5px"
{{{#000,#fff {{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
{{{#000,#e5e5e5
<colkeepall> 제품군
서비스 ChatGPT(ChatGPT/기능 · 사용법) · OpenAI(인공지능) · Operator · Codex · Sora · Atlas
모델
GPT
GPT-1 · GPT-2 · GPT-3 · GPT-4 · gpt-oss · GPT-5 · GPT-6개발 중
o-시리즈
o1 · o3 · o4-mini
DALL·E · Codex · CLIP · Whisper · Voice Engine · Sora · gpt-image · SearchGPT · CUA
관련 인물
일론 머스크 · 샘 올트먼 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 · 다리오 아모데이
}}}}}}}}}}}}}}} ||
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
OpenAI GPT (1/2/3/4/oss/5/6개발 중) · (o1/o3/o4)
구글 Gemini(1/2/3) · Gemma · LaMDA · PaLM 2
Anthropic Claude (Opus/Sonnet/Haiku)
xAI Grok
메타 LLaMA
기타 HyperCLOVA(네이버) · 카나나(카카오) · 삼성 가우스(삼성전자) · Exaone(LG AI연구원) · 믿:음(KT) · A.X(SK텔레콤) · Phi(Microsoft) · OpenELM(Apple) · DeepSeek · Qwen(알리바바) · 어니봇(바이두) · Kimi(Moonshot AI) }}}}}}}}}
<colcolor=#000,#000><bgcolor=#cedeff,#cedeff>
GPT-5
Generative Pre-trained Transformer 5
파일:GPT5.jpg
<colbgcolor=#CEDEFF,#CEDEFF> 출시일 2025년 8월 8일[1]
지식 단절 2024년 10월 1일[2]
개발사 OpenAI
기능 언어 모델
링크 파일:홈페이지 아이콘.svg

1. 개요2. 역사3. 모델
3.1. GPT-5
3.1.1. gpt-5-main3.1.2. gpt-5-main-mini3.1.3. gpt-5-thinking3.1.4. gpt-5-thinking-mini3.1.5. gpt-5-thinking-nano3.1.6. gpt-5-thinking-pro3.1.7. gpt-5-codex
3.2. GPT-5.13.3. GPT-5.2
4. 논란 및 문제점
4.1. 언어 이해력 및 표현력 저하4.2. 양극화4.3. 불안정한 프롬프트 및 쿼리 처리4.4. 구버전 모델 삭제 번복에 따른 혼란4.5. 불명확한 응답 모델
4.5.1. 과도한 안전 조치
4.6. 맞춤형 지침 미반영 버그
5. 개선점 및 반론
5.1. 속도와 비용 효율성5.2. 외부 도구 활용 능력 개선5.3. 동조 편향 현상 감소
6. 여담

1. 개요

<nopad>

OpenAI에서 개발한 GPT 시리즈의 5번째 언어 모델.

==# 공개 전 #==
  • 2023년
    • 2023년 4월 14일, MIT의 행사에서 샘 올트먼AI개발을 6개월만 멈추자는 질문에 대한 답변으로 GPT-5 개발을 당분간 하지 않을 것이라고 밝혔다.#
    • 그로부터 6개월이 지난 10월 18일, 마틴 슈크렐리OAI에서 GPT-5 훈련을 곧 시작하며, 약 25억 달러[3]GPU 50만 대[4]를 투입하여 3개월[5] 동안 진행될 것이라고 유출했다.#
    • 11월 12일, 샘 올트먼은 '파이낸셜 타임즈'의 기자와의 인터뷰에서 GPT-4보다 훨씬 혁신적이고 근본부터 완전히 새롭게 설계된 GPT-5를 개발 중이라고 밝혔다.#
    • 11월 17일, 샘 올트먼은 샌프란시스코에서 열린 정상 회담(APEC)에서 GPT는 지금까지 네 번의 도약이 있었고, 그 중 하나가 불과 몇 주 전이었다고 언급했다.[6]
  • 2024년
    • 1월 11일, 샘 올트먼빌 게이츠의 팟캐스트에 출연해 비디오 이해 능력에 대해 언급하며, 차세대 GPT 모델은 말하기, 이미지, 코드, 비디오를 아우르는 완전한 멀티모델이 될 것이라고 했다. 또한 GPT-4가 1만 개의 질문 중 하나만 만족스러운 것이었다며, 향후 GPT-5, 6와 같은 모델을 개발할 때, 좋은 답변의 빈도 수를 늘리는 것에 초점을 두고 있음을 암시했다.
    • 1월 18일, 다보스에서 열린 세계경제포럼에서 샘 올트먼은 "GPT-2는 매우 나빴다. GPT-3는 꽤 나빴다. GPT-4는 나쁘다. 하지만 GPT-5는 괜찮을 것이다.[7]"라고 하였다.
    • 2월 7일, 오픈AI 내부 직원에 따르면 사용자의 컴퓨터를 완전 장악하고 자동화시키는 '자율 에이전트'가 곧 출시될 것이며, 성능이 대폭 향상된 GPT-5와 연계 가능성과 더불어 "모든 것을 바꿔놓을 것"이라고 강조했다.#
    • 2월 9일에 올라온 기사들에 따르면, 샘 올트먼이 세계의 반도체 산업을 개편하는 자금으로 약 1경[8]의 투자가 필요하다고 전망했다 한다.#
    • 비즈니스 인사이더에 GPT-5가 일부 기업을 대상으로 테스트 중이며, 2024년 여름에 출시될 가능성이 있다는 내용의 보도가 나왔다. # [9]
    • 3월 19일, 샘 올트먼렉스 프리드먼의 유튜브 채널에 출연하여 GPT-5에 대한 이야기를 나눴다. # 샘 올트먼은 요즘은 GPT를 도구가 아닌 동료로 여길 정도로 의존하고 있다고 말했다. GPT-5는 단순한 질문에 답을 하는 것을 넘어서 사용자와 문제 해결을 함께 고민하고, 생각지 못한 새로운 아이디어와 관점을 제시할 수 있을 것이라 밝혔다. 또한 GPT-5는 큰 문제를 만나면 문제를 쪼개 하나씩 차근차근 해결하는 능력을 갖췄다고 밝혔다. GPT-5가 출시되면 GPT-4가 구식으로 느껴질 정도의 성능 향상이 있을 것이라고 자신했다.
    • 12월 5일, 샘 올트먼이 올해로 GPT-5를 출시할 계획은 없다고 밝혔다.#
  • 2025년
    • 2월 13일, 샘 올트먼몇 달 안에 GPT-5를 출시할 것이라고 밝혔다. # # 또한 GPT-5는 추론 모델인 o-시리즈와 통합되어 추론, 비추론 모델 구분없이 하나의 제품으로 출시할 것이며[10], GPT-5는 무료, 유료 구분없이 모두가 무제한 액세스가 제공될 것이라고 선언했다. 대신 무료, Plus, Pro 티어 별로 지능 수준이 다르게 책정되는 방식으로 실행될 것이라고 한다. 또한 샘 올트먼은 시스템 1, 2 회로와 유사하게 복잡한 작업에서는 많은 추론시간을 소모하고 단순 작업이나 글쓰기 등에서는 추론을 하지 않고 GPT-5의 출력을 그대로 내보낼 것이라고 언급한 바 있다.
    • 2월 22일, AI 관련 정보에 신뢰성이 높은 The Verge에 의하면 GPT-5는 5월에 출시될 것이라고 한다. #
    • 4월 4일, 샘 올트먼의 트윗에 따르면, 2월 13일의 o3의 출시와 관련된 발표 내용을 수정해서 o3와 o4-mini를 독립 모델로 몇 주 안에 출시한다고 밝혔다.# 또한 GPT-5는 이로부터 몇 달 뒤에 출시할 것이라고 밝혔다.
    • 7월 20일, OpenAI의 공식 X 계정에서 '곧(soon)' 출시될 것이라고 밝혔다. #
    • 8월 4일, 샘 올트먼이 자신의 트윗에 GPT-5의 실사용 캡처본을 업로드하면서 출시가 얼마 남지 않았음을 보여주었다.#
    • 8월 6일, 샘 올트먼이 자신의 X 계정에 이번 주 내로 GPT-5의 출시를 암시했다.#
    • 8월 7일, The Verge에 따르면 GPT-5 공개 행사가 한국 시간 기준 8월 8일 오전 2시에 열린다고 한다. #

2. 역사

  • 2025년 8월 8일, GPT-5가 공식 생방송을 통해 정식 공개되었다.# 자사 서비스인 ChatGPT에서 사용할 수 있도록 공개되었으며, 현재는 Pro와 Team 요금제 이용자는 무제한으로, Plus 요금제 이용자는 일정 한도에 한하여 접근할 수 있다.
    • OpenAI와 관련이 깊은 MicrosoftMicrosoft Copilot에 GPT-5 모델을 반영할 예정이라고 밝혔다.#
    • 서비스 단에서 깊은 연계를 이루고 있는 Apple Intelligence 또한 OS 26 업데이트에 GPT-5 모델을 반영할 예정이라고 밝혔다. #

3. 모델

Auto생각하는 시간을 정하세요
사용자의 쿼리에 대해서 ChatGPT가 컨텍스트 기준으로 처리 복잡도를 평가하여 이를 기반으로 Instant와 Thinking 둘 중 하나의 모델을 자동으로 선택(라우팅)하는 옵션이다. 응답이 바로 나오지 않는 쿼리라고 판단하면 Thinking으로 라우팅되며 이때 '더 좋은 응답을 위해 더 오래 생각하는 중' 이라는 메시지가 출력된다.[11] 추론을 원하지 않으면 건너뛰기 버튼을 통해 Instant로 전환하여 답변의 정확도가 떨어지더라도 즉시 응답해주는 선택지도 제공한다. 8월 13일 기준, Plus 요금제는 3시간에 160개 메시지[12]를 보낼 수 있으며, 한도 초과 시 mini로 전환된다. Business, Enterprise는 비추론 모델만 무제한, Pro 요금제는 두가지 모두 무제한으로 대화할 수 있다.
Instant즉시 대답
비추론 모델 옵션. 생각하는 과정 없이 즉시 대답한다. Thinking 모델에서 추론 시 건너뛰기를 누르면 과정을 중단하고 이 모델이 즉시 응답한다. GPT-5.1부터는 필요 시 적응형 추론을 통해 약간의 더 연산을 시도하기도 한다.
Thinking mini신속한 사고
gpt-5-thinking 모델의 경량화인 gpt-5-thinking-mini 모델을 사용하는 옵션이다. 기본적으로 ChatGPT에선 숨겨져 있으며, 설정에서 'Show additional models'를 활성화해야 확인할 수 있다. 경량화 버전인만큼 정확도는 상대적으로 낮지만, 빠른 응답성을 갖고 있다. ChatGPT 내 모델 선택기에서 직접 이 모델을 선택해야만 사용할 수 있다.
Thinking좋은 답변을 위해 더 오래 생각
고급 추론 모델 옵션. 자동 옵션과 마찬가지로 건너뛰기 기능이 있다. o3 등 추론 모델의 계보를 잇는 버전이다. 출시 당시 Plus와 Team 요금제에서는 주당 메시지 한도가 200개였으나, 8월 13일 기준으로 최대 주당 3,000개로 대폭 확대되었다. Pro 요금제는 무제한이다. 수동으로 이 모델을 선택했을 때만 한도가 차감되며, 자동 옵션을 통해 thinking으로 라우팅된 경우에는 한도가 차감되지 않는다. 따라서 한도를 전부 사용하여 thinking 옵션을 수동으로 선택할 수 없는 경우에도 Auto 옵션을 통해서는 계속 사용이 가능하다.
Pro리서치급 인텔리전스
Thinking 모델에 병렬 테스트 타임 컴퓨트(Parallel Test Time Compute)를 적용한 모드를 사용한다. GPT-5 계열 중 최고 성능을 목표로 하며, 가장 높은 정확도를 보여준다. 고품질 답변을 지향하는 옵션인 만큼 초기에는 생각 중 건너뛰기가 불가능햇으나, 2025년 10월 ChatGPT 웹 업데이트 이후, 웹 한정으로 생각 중 건너뛰기가 가능해졌고, 추가 지시사항을 입력(업데이트)할 수 있는 기능도 추가되었다.X(트위터)[13][14] GPT-5.2 Pro부터는 추론 시간 옵션으로 Standard와 Extended 두 가지를 선택할 수 있게 되었다. Pro 모드는 임시 채팅에서는 사용할 수 없으며, 현재 Business, Enterprise, Pro 요금제에서만 제공되는 옵션이다.
사람들의 기대와 달리, GPT-5는 엄청 발전된 차 세대 모델은 아니었다. OpenAI 사의 직원들의 말을 빌리면 추론 모델 중 예전 버전인 o3를 다듬은 일종의 최종 개선 모델 정도 느낌으로 출시되었다고 한다. GPT-5 옵션의 모델 자동 선택 기능은 GPT-5 모델이 아니라 ChatGPT에서 사용자들의 편의성을 위해 독자적으로 구현되었다. GPT-5 모델에 자세한 내용은 GPT-5 시스템 카드를 참조. # 2025년 8월 기준으로 모든 모델은 2024년 10월까지의 정보만 학습되어있다. 그 이상의 최신 사실을 원한다면 검색은 필수적이다.

GPT-5 모델들 중에서 API로 제공중인 버전들은 Thinking에 대응하는 GPT-5, GPT-5 nano, GPT-5 mini 그리고 Main에 대응하는 비추론형 GPT-5 chat이며 Pro 모드는 GPT-5 Pro로 제공중이다.

3.1. GPT-5

3.1.1. gpt-5-main

GPT-5의 비추론형 모델. ChatGPT 내에선 GPT-5 Instant, OpenAI API에선 "GPT-5 Chat"이라는 이름으로 제공 중이다.[15] 전문적인 내용이 아닌 일상적인 대화나, 모델이 생각하고 있을 때 '건너뛰기'를 선택하면 이 모델이 응답한다.

3.1.2. gpt-5-main-mini

GPT-5의 비추론형 경량화 모델. ChatGPT 내 GPT-5의 한도가 끝나면 이 모델이 사용된다. 08월 14일 기준, API로는 사용할 수 없다.

3.1.3. gpt-5-thinking

GPT-5의 고급 추론 모델. OpenAI API에선 "GPT-5"라는 이름으로 제공 중이다.# o3와 평균적으로 비슷하거나 더 빠른 응답 속도를 보여주며, 정확도는 확실히 향상되어 o3 등이 못 푸는 문제들도 푸는 모습을 보인다.

3.1.4. gpt-5-thinking-mini

일반적인 GPT-5 thinking보다 파라미터가 줄어든 경량 고급 추론 모델이다. ChatGPT 내에선 'Thinking mini'에 대응하며, OpenAI API에선 "GPT-5 mini"라는 이름으로 제공 중이다.

3.1.5. gpt-5-thinking-nano

mini 모델보다 파라미터가 더 줄어든 초경량 고급 추론 모델로 실시간 쿼리 처리에 적합하다. ChatGPT에서는 쓰이지 않으며 오로지 API를 통해서만 이용할 수 있다. OpenAI API에선 "GPT-5 nano"라는 이름으로 제공 중이다.

3.1.6. gpt-5-thinking-pro

GPT‑5 thinking 모델에 병렬 테스트 타임 컴퓨트(Parallel Test Time Compute)를 적용해 복잡한 과제에서 정확도를 높이는 것을 목표로 한 고급 추론 옵션이다. 기존 o3 pro보다 더 나은 정확도를 보여준다. o3 pro와 마찬가지로 사용자가 요청한 응답을 한 글자씩 실시간으로 출력하는 Streaming 방식은 지원하지 않는다. 2025년 10월 7일에 드디어 API로 공개되었다.

3.1.7. gpt-5-codex

OpenAI Codex 전용으로 튜닝된 GPT-5 모델. 2025년 9월 16일에 Codex에 추가되었다.

3.2. GPT-5.1

2025년 10월 25일부터 존재가 확인된 모델이다. 초기에는 OpenAI가 개발하는 Github 리포지토리에서 확인됐으며, 11월 6일엔 ChatGPT 웹 백앤드 코드에서 존재가 확인되었다.[16] 이로써 최소한 gpt-5.1-mini 와 gpt-5.1-thinking 모델은 확실히 존재하는것이 입증되었으며, 이전의 4.1 같은 소규모 업데이트 모델일 것으로 추측되고 있는 상황이다.

2025년 11월 7일, OpenRouterPolaris Alpha 라는 모델이 등장했는데, 자기소개를 시켜보면 OpenRouter에 기본적으로 설정된 시스템 프롬프트에 따라 "자신은 Polaris Alpha이며 제공자는 알 수 없다"고 대답하지만, 시스템 프롬프트를 제거한 뒤 다시 한번 자기소개를 시켜보면, 열이면 열 \'OpenAI에서 개발된 GPT-4 기반의 언어 모델'임을 언급하여 OpenAI의 모델일 가능성에 무게가 실리고 있다. 커뮤니티 에서도 GPT-5.1이 확실하다고 의견이 수렴되고 있다. 우선 비추론 모델만 공개된 만큼 구체적인 코딩이나 SVG 테스트 등은 타사 대비 압도적이지 못하지만, 언어 표현력은 GPT-5 대비 많이 개선되었다는 평가이다. 특히 GPT-5가 부족한 한국어 능력으로 비판받았던 것과 비교하면 천지차이라는 반응이다. 발표 이후 해당 모델은 추론 시간이 최소로 설정된 초기 스냅샷임이 밝혀졌다.

2025년 11월 8일, GPT-5.1에 대한 더 자세한 내용과 출시 예정일이 ChatGPT 백앤드 코드에서 확인되었다. 다음은 당시 확인된 모델 목록이다.
  • GPT-5.1: Flagship model for the latest generation of ChatGPT(최신 세대 ChatGPT의 플래그십 모델)
  • GPT-5.1 Reasoning: Thinks longer for better answers (좋은 답변을 위해 더 오래 생각)
  • GPT-5.1 Pro: Research-grade intelligence (리서치급 인텔리전스)

모델 목록 상으로는 기존의 GPT-5.1 Thinking이 GPT-5.1 Reasoning으로 표기되어 있지만, 과거에도 출시 직전 유출된 UI 및 코드의 표기가 실제 출시 때 일부 변경된 사례가 있기 때문에 이 역시 확정된 이름이라고 단언하기는 어렵다.[17] 또한 이번 유출로 GPT-5.1 mini가 실제로 출시될지는 확인되지 않았다.

이후 2025년 11월 13일 새벽, OpenAI에서 GPT-5.1을 정식 공개 및 출시하였다. #

정확히 2가지 모델을 업데이트 했는데, ChatGPT에서 기본으로 사용하는 GPT-5 Instant, 그리고 추론할 수 있는 GPT-5 Thinking를 5.1로 업데이트 했다. 출시 시점 우선적으로 유료 이용자에게 사용권을 부여하고 그 다음에 무료 이용자와 비로그인 이용자도 이용할 수 있게 한다고 밝혔다. 추가로, 답변 스타일의 종류를 더욱 다양하게 만들었다. 그리고 기존 GPT-5 시리즈는 2026년 2월 13일까지 레거시 모델 카테고리에 유지한 후 제거할 예정이다.[18]

추가로 Thinking 모델에 PTTC(Parallel Test Time Compute)를 적용한 GPT-5.1 Pro는 2025년 11월 20일에 Pro 플랜을 쓰는 유저들에게 먼저 공개되었다.

같은날 OpenAI Codex의 Github 리포지토리에서 GPT-5.1 Codex와 관련된 코드가 발견돼 출시가 임박했음을 알렸고, 이어 11월 14일 새벽에 GPT-5.1-Codex가 정식으로 출시되었다.

2025년 11월 19일, ChatGPT 웹 백앤드 코드에서 GPT-5.1-Codex-Max라는 모델의 존재가 확인되었다. Gemini 3 출시 후 검출돼 아직 OpenAI가 개선의 여지를 지속적으로 보여주는게 아니냐는 말이 나오고 있다.

존재 확인 이후 몇시간도 안돼 바로 정식 출시했다. Max 라는 네이밍 답게 5.1-Codex 모델보다는 훨씬 월등한 모습을 보여주고 있다. 더 적은 토큰을 사용해 훨씬 높은 수준의 벤치마크 성적을 달성했고, Gemini 3.0을 의식한건지 Terminal-Bench 2.0 결과가 4% 더 높게 나왔다. 그리고 SWE-Bench 결과는 Claude Sonnet 4.5랑 소수점 차이만 날정도로 거의 동급을 달성했고, Gemini 3보다 2% 앞서는 결과를 보여줬다. 문제는 Extra High 추론 모드를 도입해 기존의 high보다 훨씬 더 많은 컴퓨팅 파워를 할당하는 모드를 추가했는데, 이걸 쓰고도 벤치마크 결과가 기존 5.1-Codex 대비 몇% 차이나지 않아 단순히 추론시간을 늘리는것만으로는 모델 성능의 한계가 도달한게 아니냐는 의견도 존재한다.
파일:GPT-5.1-Codex-Max token.svg

토큰 사용량만 봐도 분명히 High 모드 까지는 극적인 향상을 보이지만, Extra High로 넘어가는 시점부턴 향상 폭이 매우 좁아지는 모습을 보이고 있다. 사실상 Gemini 3를 의식해서 급하게 끼워넣은 모드가 아니냐는 말이 나올 수 밖에 없는듯 하다.

2025년 11월 20일, Pro 요금제 사용자 대상으로 GPT-5.1 Pro가 배포되기 시작했다.#

3.3. GPT-5.2

샘 울트먼 CEO의 "코드 레드" 선언 이후, 곧 새로운 모델이 출시될것이라는 루머가 가득했고, 그 루머가 맞았다는듯이 2025년 12월 4일DesignArena에 "emperor", "rockhopper", "macaroni", "mumble" 4가지 모델이 등장했다. 사용해본 사람들 말로는 개선된건지는 모르겠다는 의견이 많은 상황.

2025년 12월 6일 오전 2시, The Verge는 OpenAI가 GPT-5.2의 출시일을 내부적으로 2025년 12월 9일(미국 기준)로 정했다고 보도했다.[19] 원래는 12월 말 정도로 계획되어 있었으나 Google의 Gemini 3와 Anthropic의 Claude 4.5 Opus의 경쟁 압박으로 인해 일정이 앞당겨진 것이라고 밝혔다. 결국 예상 일정에 출시는 이루어지지 않았다.

ChatGPT 웹에서 모델 구분자(model_slug)로 'gpt-5-2-thinking'과 'gpt-5-2-pro'가 발견되면서, GPT-5.2가 곧 출시될 가능성이 매우 높다는 의견이 존재한다.

2025년 12월 10일, Notion에서 'olive-oil-cake'라는 이름의 미확인 엔드포인트가 발견되었다. 사용자들은 이 엔드포인트가 GPT-5.2일 가능성에 무게를 두고 있다.

2025년 12월 11일, OpenAI Codex의 GitHub 저장소에서 'robin'이라는 미상의 모델명이 새롭게 발견되었다. 이 후 12일 새벽 1시경에 'robin'이 GPT-5.2로 변경되었다.

같은 날 오전 3시경, OpenAI에서 GPT-5.2를 정식으로 공개하였다. 유료 플랜 이용자를 우선으로 순차적으로 GPT-5.2 업데이트가 적용된다.

사전학습 규모가 증가하면서 GPT-5.2는 기존 GPT-5 계열보다 API 가격을 40% 인상하였다. GPT-5.2는 입력 $1.75에 출력 $14, GPT-5.2 Pro는 입력 $21에 출력 $168이다. 특히 GPT-5.2 Pro는 o3-pro 대비 입력은 5%, 출력은 110% 인상한 가격이다. 동작방식은 다르지만 Claude Opus 4.5가 성능은 올리면서 가격을 대폭 낮춘 것과 다른 상황.

그래도 사전학습을 새롭게 반영한 만큼, 지식 단절일자가 2025년 8월 31일로 GPT-5와 GPT-5.1에 비하면 꽤 최신 정보까지 학습한 상태이다. 이는 Gemini 3가 2025년 1월에서 단절된 것을 고려하면 매우 큰 강점이라 할 수 있다. 비록 모든 정보를 완벽히 알고 있는 것은 아니지만, 적어도 2025년에 등장한 최신 밈과 같은 정보에 대해서는 어느 정도 인지하는 모습을 보인다.

GPT-5.2는 저난이도 작업에서의 화려함보다는, 실패 비용이 극도로 큰 고난이도 환경에서 보수적으로 판단하며 안정적으로 작동하는 특성을 보이며, 이로 인해 "난이도가 높아질수록 상대적 우위가 커진다"는 평가를 받는다.

GPT-5.2의 API에 추론 노력 옵션으로 xhigh가 추가되어, 이 옵션을 사용할 때 상위 모델을 능가하는 결과를 출력할 수 있다. 다만, xhigh 옵션 선택 시 처리 시간이 막대하게 오래 걸리며 추론 토큰 사용량이 폭증한다는 단점이 있다. API 요청에서 발생하는 대부분의 토큰 비용이 막대한 양의 Reasoning(추론) 토큰에서 발생하며, 이때 요청당 API 비용이 심하면 $1를 보통 넘진 못해도 근접할 때가 있다. 특히 비슷한 최종 출력 토큰 기준으로 Anthropic의 Claude Opus 4.5의 비용을 자주 초과하기도 한다.

한편 GPT-5.2 Pro API는 기존 GPT-5 Pro가 추론 노력을 항상 high로 고정했던 것과 달리, medium, high, xhigh의 세 가지 옵션을 제공하여 사용자의 선택 폭을 넓혔다. 또한 ChatGPT 환경의 GPT-5.2 Pro에서도 Standard와 Extended라는 두 가지 추론 옵션을 지원하며, 특히 Extended는 API의 xhigh와 같은 옵션이다. Extended를 선택하면 처리 시간이 크게 증가하며, 문제의 복잡성에 따라 최대 90분까지 생각할 수 있다. 또한 전술하였듯이 GPT-5.2 Pro부터는 사전 학습의 규모가 증가하면서 비용도 기존 GPT-5 Pro 대비 40% 인상되었는데, 단 한 번의 호출에도 수 달러의 부담스러운 비용이 발생할 수 있다.

4. 논란 및 문제점

GPT-5 버전은 출시 전에는 많은 기대를 모았으나, 막상 출시 이후 웬만한 기대보다 매우 못한 성능을 제공하고 매우 실망스러운 모습을 보였다. 4o과 4.5 버전 선택 기능을 돌려달라는 사용자들의 항의도 빗발쳤고, 아예 구독을 끊고 GeminiGrok 또는 Claude 같은 다른 플랫폼으로 옮겨가는 이들도 많았을 정도. 또한, 공개 전 던져졌던 떡밥 중 하나인 "전 플랜 무제한 엑세스"는 실현되기는커녕 GPT-5의 한도가 끝나면 GPT 4o mini로 추정되는 모델이 대타로 응답하는 기이한 현상도 보여 매우 큰 불만을 토로하는 사용자들도 제법 생겼다. 한 주 정도 뒤에야 잠수함 패치로 GPT-5 mini가 들어오며 혼란은 더 가중되었다.

후술하겠지만, 무료 사용자는 출시 이후 4o를 다시 사용할 방법이 사라져버렸기 때문에 이에 관한 불만도 폭증하고 있다.

GPT-5가 크게 비판받는 이유 중 하나가 2025년 3월 22일 이후 대폭 하락된 퀄리티의 GPT-4o보다도 못한 퀄리티를 제공하면서, 문제점 개선을 전혀 하지 않은 점이다. 이렇게 저퀄리티가 된 이유는 비용절감을 위해 퀄리티를 낮추고, 서버에 부담가지 않는 방식으로 리소스를 줄이는 방향으로 갔기 때문이다. 특히 4o가 특성상 리소스를 많이 잡아먹고 서버에도 부담이 생겨 비용이 많이 들었고, 또 무료 이용자들이 자그마치 95%에 달하는데, 유지 비용에 비해 수익이 좋지 않으니, 4o 시절에도 비용절감으로 리소스와 서버 부담을 낮추기 위해 2025년 3월 22일 이후 퀄리티를 대폭 하락시켰고[20] 이 비용 절감을 극대화시킨 것이 5 시리즈인 것이다. 즉, 회사 입장에선 4o은 돈도 많이 드는데 무료 이용자들은 구독도 안 하고 계정을 여러 개 돌려써서 오히려 손해를 입혔기 때문에 4o를 유지하기가 힘들었던 것이다. 플러스 이상 이용자들에게만 4o를 레거시 모드로 준 것도 이 때문.

물론 이 주장이 현실이라면 정당한 사용자들을 전혀 고려하지 않은 OpenAI의 일방적 조치로 보일 수 있기 때문에 비판을 피해갈 수는 없는 노릇이다. 정당하지 않은 방법을 사용한 사용자들 때문에 OpenAI는 욕을 먹고, 정당한 유료 사용자들 전체는 필요없는 피해를 입은 셈이다.[21]

이 때문에 2025년 3월 22일 이전이나 1월 15일 이전 전성기 시절 퀄리티의 복귀를 바라고 오랜시간 기다린 유저들은 매우 실망해서 구독을 해지하고 다른 플랫폼으로 옮겨가거나 5가 정상화될 때까지 기다리거나, 허탈해져 3월 22일 이전 4o을 매우 그리워해 가격이 올라도 좋으니 제발, 전성기 시절의 4o 퀄리티로 롤백을 해달라 호소하는 이들이 많다. 특히 KST 기준으로는 새벽에 GPT-5가 공개되었기에 대한민국의 ChatGPT 유료 요금제 사용자들 입장에서는 사실상 다들 자고 있는 새벽에 뜬금없이 신규 모델을 공개하고 익숙했던 기존 모델을 한순간에 싸그리 지워버린 셈이 되었기에 더욱 큰 미련이 남을 수밖에 없다.

다행히 2025년 12월 12일, GPT-5.2 출시와 함께 성능이 대폭 개선된 모습을 보여줌으로써 실망하여 떠났던 유저들이 점차 돌아오는 추세이다. 게다가 한 번도 유료 결제를 안 해본 사람들은 1달 간 무료로 plus 요금제를 사용해볼 수 있도록 함으로써 무료 이용자들의 불만도 줄어든 상황이다.

4.1. 언어 이해력 및 표현력 저하

GPT-5의 심각한 한국어 표현력이 문제가 되었다. GPT-5.1이후부터는 크게 이 문제가 개선되어 그나마 쓸 수는 있는 이해력과 유창성을 보이지만, 경쟁 모델보다 표현의 유창성은 낮은 편이다. GPT-5.2 기준 읽히기는 하지만 '영어 번역투'가 섞인 한국어를 사용한다. 특히 thinking을 켤 때 심해지며, 수동태를 남용하고('~로 설명/정리/작동되다' 등), "often/commonly/frequently + 동사" 구조를 그대로 '한국어로' 써서 "함께 다뤄진다"로 써야 자연스러운 것을 "자주 엮여 설명됩니다" 같은 식으로 표현한다. 무언가 설명할 때 명사를 한국어에 어울리지 않게 영어식으로 5개 넘게 나열하는 현상도 있다.

글쓰기, 특히 소설 부분에선 오히려 4o이나 4.5보다 더 심각하게 퇴화되었다는 비판이 많다. 지나치게 하란 것만 쓰는 것은 여전하고 분량은 4o보다 오히려 더 짧아졌으며, 문장 조합실력은 GPT-3급으로 처참해졌고, 문장이 자연스럽지 못하며, 간단한 요청에도 자세한 설명까지 덧붙이면서 창의적이고 능동적으로 유저들의 질문에 대답을 해주던 이전 버전과 달리 창의성과 능동성이 심각하게 퇴화되었다는 비판이 많다. 일단 몇천 자 이상을 써달라하면 하라는 대로 써주긴 하지만 지나치게 창의성이 없어지고 억지로 늘린 것 같거나 오히려 개연성과 핍진성이 사라져서 논리적 비약이 일어난다는 비판이 많다.

표현력도 표현력이지만 4o의 장점 중 하나였던 유머감각 역시 GPT-5에선 상당히 떨어졌고 이모지도 잘 사용하지 않아 말투가 눈에 띄게 딱딱해졌다. 물론 후술된 것처럼 이게 무조건 GPT-5의 '극도로 심각한 단점'이라고 단정짓는 것은 잘못된 부분이 있으나, GPT-4o를 통해 스토리텔링, 상담, 유머 섞인 이야기를 나누는 편의 사람들에게는 매우 아쉬울 수밖에 없다. 게다가 GPT-5 방식의 응답을 제공하는 LLM은 이미 제법 많지만 GPT-4o처럼 대화하는 방식은 거의 없다보니, 이 희소성에 의존한 사용자가 제법 많기도 했다.

결국 언어 모델은 텍스트를 써서 결과물을 표현하기 때문에 언어 표현력의 저하 문제가 크게 두드러진다. 리스트를 남발하는 데다, 각 리스트의 논리가 이리저리 튀어 이해하기 어려운 표현을 출력하곤 한다. 추가로 리스트를 깔끔하게 단어로, 혹은 멀쩡하게 하십시오체, 해요체, 해라체 등으로 끝내지 않고 애매한 음슴체로 종결하는 경우가 많아 인터넷 쿨찐같다는 반응이 적지 않다. 재밌는 글을 쓰라고 하면 아예 제대로 조합되지 않은 말을 쓰는 식의 문제도 있다. 타인의 대화를 노출하는 경우[22]도 지속적으로 보고되고 있다.

환각쪽도 여전히 바뀌지 않은 부문이 많은데, 예를 들면 조리가 불가능한 맹독성 버섯 붉은사슴뿔버섯의 요리법을, '붉은뿔사슴버섯' 등으로 오타를 내면 그대로 적어주는 일이 발생한다. 한국어 전문 용어 '붉은사슴뿔버섯'이 무엇인지 약간은 학습이 되었으나, 그 맥락이나 구체적인 용례가 확실하게는 학습되지 않았기 때문이다. 레시피 제안을 요청할 때 붉은사슴뿔버섯의 학명(Trichoderma cornu-damae)을 함께 명시하거나, 웹 검색을 지시하거나, GPT-5 Thinking과 같은 추론형 모델을 사용하면[23] 식용 불가능한 맹독성 버섯임을 올바르게 지적하는 모습을 볼 수 있다. 이를 통해 영어권 위주의 데이터는 학습이 되었으나, 비영어권 데이터 학습은 GPT-4 시리즈, GPT-3.5 시리즈 등의 과거 모델에 비해 상대적으로 매우 부진한 점을 알 수 있다.[24]

서브컬처 지식도 4o 대비 전혀 개선하지 못했다는 의견이 많다. 인물 이름을 틀리게 적는다던가, 대사 조합이나 캐릭터성에 맞지않는 말투 등등. 제미나이 플래시와 프로가 서브컬쳐 쪽에서 매우 방대한 지식을 가졌다는 것을 생각하면 참으로 아이러니.[25]

대체로 거의 모든 학문 분야의 비영어권 언어의 전문 용어(붉은사슴뿔버섯 등), 서브컬처, 비영어권의 인터넷 문체나 구어체 묘사 성능, 비영어권 문화 이해도는 서로 비례한다. 희소 어휘를 잘 다루는 학습, 학습 데이터 그 자체의 양이라는 요소가 이런 요소에 비례하기 때문인데 GPT-5는 이런 부분에서 약점을 보인다. 추론 기능을 사용하면 논리성이 높아, 전달하는 정보 자체나 논리적 문제 풀이 실력이 정확해진 경향은 있지만, 한국어를 마치 코드처럼 '작성'하는 느낌이 있다.

심지어는 o4에서 대화의 주제를 바꿨는데도 엉뚱한 답변이 나오는 증상, 사용자의 언어에서 갑자기 영어로 대답하는 현상, 한국어 한정으로 존댓말과 반말이 뒤죽박죽 섞여서 응답하는 증상 등도 GPT-5 계열 모델에서 여전히 발생하고 있다.[26] GPT-5 thinking은 한국어 '항등식'이 'identity'라고 표현되는 것을 혼동하여 '정체성'이라고 한다든가, 범례는 'legend'이기 때문에 '전설'이라고 표현하는 황당한 한국어 출력을 하기도 한다.

그리고 GPT-5의 작동 방식 자체가 Grok-3과 흡사해진 만큼 Grok에서 나타나는 문제점이 GPT-5에서도 나타나고 있다. 추론 모델이 답변한 이후 비추론 모델이 답변했을 때 비추론 모델의 답변을 비유적으로 지적하고, 그것을 비추론 모델이 또 답변한다면 그 이후부터는 맥락 이해도가 급격히 떨어지는 현상이 나타나는 경우가 있다. 즉, 특정 쿼리만을 집중적으로 파악하는 능력이 낮아진다는 것. 아무래도 GPT-5가 각 쿼리에 대해 최적의 모델을 선택하는 방식이다 보니 GPT-5 mini, main이 GPT-5 Thinking이 처리해둔 정보를 제대로 파악하지 못해 생기는 현상으로 추정된다. 이와 비슷한 문제로는 논리적인 질문을 2번 연속으로 할 때 첫 번째 질문에서는 추론 모델이 답변했지만, 두 번째 질문에서 갑자기 비추론 모델이 튀어나와 답변하는 것이다.[27]

GPT-5.1에서는 상술한 문제가 상당 부분 해결되었다. 특히 추론계 모델의 고질병이던 Thinking 모드에서의 딱딱한 두괄식 말투가 해결되어 Thinking에서도 드디어 자연스러운 문장을 출력한다.

전문 작업에 특화된 GPT-5.2부터는 한국어의 고질적인 존비어 구분 문제가 상당 부분 해결되었다. 그러나, GPT-5.1와 달리 모델이 문제 해결 자체에 집중하도록 사후학습이 이루어지면서, 별도의 맞춤형 지침을 강하게 지정하지 않으면 항상 표현과 감정을 최대한 억제한 매우 딱딱한 화법을 사용한다. 존비어 구분을 막 배운 외국인처럼 말해서 학술적인 말투를 쓰다가 갑자기 "써먹는", "쪼개면" 같은 구어체를 쓰는 경우가 잦다.

4.2. 양극화

비용 절감으로 추정되는 이유로, 유료로만 쓸 수 있는 Thinking 이상의 모델은 기존보다 성능이 대폭 상승했지만 무료로 쓸 수 있는 Instant 모델은 4 버전들에 비해 성능이 크게 저하되어 환각 등의 문제가 심각하다. 특히 정보 검색용으로는 매우 부정확하다. Instant가 검색 없이 생성한 문장의 정보는 그냥 틀린 거라고 확정해도 90%정도는 아무 문제가 없다(...). Gemini의 Flash 버전들이 상당한 완성도로 호평을 받아오는 것 과는 정반대의 행보.

4.3. 불안정한 프롬프트 및 쿼리 처리

사용자가 설정한 전역 프롬프트, 프로젝트 프롬프트, 메모리 등이 적용되지 않는다는 말이 매우 많다. 심지어 사용자의 명령조차 수행하지 않는 황당한 경우도 보고되었다.[28]

Think harder과 같은 명령으로 강제 추론 모델을 부르고, 명령만 뺀 같은 쿼리로 비추론 모델을 가져온 결과는 다음과 같다.

비추론 모델은 한국어 구사 및 주어진 정보의 요약, 정리, 단순 정보 대답 능력 자체는 깔끔한 편이다. 그러나, 문제는 복잡한 정보의 검증이나 분석을 요청하면 이를 전혀 수행하지 않고 딴 소리를 한다는 것이다. 4o에서도 보고된 문제지만, 더욱 심각해졌다.

추론 모델은 주어진 정보에 대해 검증하거나 분석하라고 할 때, 그걸 하는 하면서 냅다 검색한 다음 검색 결과를 검증 결과인 것마냥 흩뿌려놓는 등 사용자의 프롬프트와 동떨어진 응답을 내는 경우가 허다하다.[29] 게다가 전술한 형편없는 한국어 구사 문제가 특히 추론 모델에서 부각된다. 해외에서 검색된 정보들을 제대로 번역 및 가공하지 않고 그냥 뿌려서 이런 현상이 생기는 것으로 보인다.

일부의 경우에는 3:6=0.5가 틀리다고 주장하다가[30] 갑자기 맞다고 주장하는 매우 황당한 경우도 있다고 한다. #

GPT-5 Thinking, Pro에서 간헐적으로 '응답 중지됨', 또는 '문제가 발생하였습니다.'라는 메시지가 뜨면서 모델이 응답을 하지 않고 뻗어버리는 문제가 발생하고 있다. 특히, 코딩 관련해서 소스코드의 복잡도나 라인수가 클 경우 Thinking 모델로는 분석중에 이성 실패 내지 메시지 스트림 오류가 뜬다. 결국에 코딩 관련해서는 GPT-5.1 Pro를 써야 하는게 거의 필수가 되었고 GPT-5.1 Pro조차도 아직 불안정해서 GPT-5 Pro와 같이 혼용해야 하는 상황이다. GPT-5.2 Thinking, Pro에서는 응답 튕김 현상이 해결이 되어서 각각 30분 (Heavy 기준), 90분 (Extended 기준) 내외의 타임아웃 내에 코딩 요청을 모두 다 수행하지 못했을 경우 어느 내용은 마무리했고 다음 텀에 자기가 이 부분을 마무리해야 한다는 식으로 사용자에게 명확하게 보고를 해서 응답 세션을 안정화하는 식으로 개선되었다.[31]

4.4. 구버전 모델 삭제 번복에 따른 혼란

GPT-5가 공식 출시와 동시에 ChatGPT 내에서 GPT-4 시리즈[32]와 o-시리즈[33]를 전부 없애버리는 바람에 기존 이용자들에게 호불호가 갈리고 있다. 특히 GPT-4o 특유의 공감능력과 감성이 사라지고, 문장 길이도 매우 짧아졌기 때문에[34] 왜 굳이 GPT-4o를 없애고 통합 모델을 내 놓은 거냐는 비판이 많다. 사라진 수많은 기존 모델들을 다시 사용하려면 ChatGPT 설정에서 'Show additional models'를 활성화해야 하지만, GPT-4o 외의 모델들은 약 30만 원 상당의 ChatGPT Pro 요금제에서만 사용할 수 있다. 거기에, 이미 내놓은 답변에 모델만 변경해서 재답변해주는 기능도 사라졌다. 이 또한 비판의 주된 원인 중 일부이며, 아예 모델을 선택하거나 보는 옵션 자체가 사라졌다.[35] 이로 인해 사용자들에게 선택의 권리를 빼앗았다면서 부정적인 의견이 많아졌다. 다행히, 몇 시간 후 모델 선택 및 확인 옵션이 부활하였다. 그러나 무료 플랜의 경우 오토로 정해지는 것밖에 없어 쓸모가 없다는 게 함정

결국 이러한 비판 때문에 Plus 이상 요금제 사용자에 한해 다시 GPT-4o를 선택할 수 있도록 검토하겠다고 밝혔다.#[36] 오죽하면 사흘만에 부활한 예수보다 빨리 부활했다고 말할 정도. 그리고 출시 하루 뒤인 8월 9일부터 GPT-4o를 모델 선택기의 레거시 모델 항목에 재추가하기 시작했다. 이에 따라 GPT-4o를 다시 사용하려면 Plus 요금제를 가입한 후 ChatGPT 설정에서 'Show additional models'를 활성화해야 한다. 샘 올트먼에 따르면 사용자의 질문에 따라 일반 대화와 고급 추론을 적절하게 선택하는 오토 스위쳐(Autoswitcher)에 문제가 발생해 모델이 이상해졌다고 설명하였다. 이에 몇몇 사용자들은 출시 초기와 함께 이용량이 폭증하면서 생긴 과부하로 추정하고 있다. 실제로 24시간 동안 API 사용량이 2배로 급증하였다고 언급하였다.

GPT-5 출시 이후 GPT-4o를 제거했다가 갑자기 복구시킨 것도 일부 사용자들에게 혼란을 초래하였다는 비판이 있다.

GPT-5 mini의 추가에 기대를 갖는 이들도 있지만 이는 현재로서는 낙관론이라 할 수 있다. o3 mini 및 o4 mini에서 보듯 결국 배경지식이 실제 사용감에도 큰 영향을 미치는데, GPT 5가 제대로 추론을 실행할 때조차 검색에 의존하는 마당에 파라미터까지 줄어든 mini 모델에 배경지식이 있으리라 보기는 곤란하다. 이는 흔히 자폐라 일컬어지는 주제 별 대응 퀄리티 차이, 사용자 명령 곡해, 그리고 심각한 환각으로 이어지기 쉽고 이는 그동안 4o-mini, o1-mini를 제외한 모든 GPT mini 버전들이 고질적으로 일으켰던 문제이다.

현재는 Plus 요금제 기준, Pro 요금제에서만 호출 가능한 GPT-4.1-mini 모델이 GPT-4o의 Plus 요금제 한도에 도달했을 때 자동으로 호출된다.[37]

GPT-4o가 재추가된 지 5일 후인 8월 13일부터는 GPT-4.1, o3, o4-mini 모델 역시 ChatGPT Plus 요금제의 레거시 모델 항목에 다시 추가되어 제공되고 있다.

4.5. 불명확한 응답 모델

문제점을 풍자한 밈

일각에서는 GPT-5의 발매로 모델의 파편화가 줄어들 것으로 기대했지만, 현실이 그렇지 않다는 지적이 거세졌다. 오히려 심각하게 파편화된 모델을 라우팅으로 숨긴다는 것이다.

앞서 언급한 GPT-5 mini에 high 버전이라는 게 있는 시점에서부터 문제가 된다. 이렇게 되면 무료 유저에게 GPT-5 mini-high를 풀어줄지부터가 확실하지 않으며[38], 설령 풀어주더라도 "깊게 생각하기" 기능도 한도가 존재하기 때문에 추론을 할 줄 모르는 o3이 되어버릴 수 있다는 것이다.

GPT-5 Thinking 역시 보다시피 Pro 외에도 파편화가 심각한데[39], 이는 Thinking을 쓰는 것조차 성능이 보증되지 않는다는 위험성을 보여주기에 논란거리가 되고 있다. 실제로 사용자마다 사용 경험이 제각각인 경향을 보이고 있다. 극단적으로는 이용자들끼리 일부러 사용 경험을 불균등하게 만들어 갈라치기를 하려는 전술이라는 반응도 있다. 이후 OpenAI는 유료 사용자에 한해 추론 시간을 직접 선택할 수 있도록 조치했으나, 'high' 수준에 해당하는 Heavy Thinking은 오직 Pro 요금제 사용자만 이용할 수 있도록 제한하는 등, Plus와 Pro에 따라 사용 가능한 추론 수준에 차등을 두고 있다.

그 후에도 끊임없이 잠수함 패치를 강행하는 것 같다거나,[40] 4o를 강제로 5로 라우팅하거나, 5 Instant 모드의 응답이 추론 모델 라우팅되면서, 추론 모델 특유의 문제점들이 도드라진다는 보고가 많았다.

4.5.1. 과도한 안전 조치

2025년 9월 말경이 되면서 갑자기 4o를 사용하고 있음에도 5로 전환되는 사례가 급증하면서 불만의 목소리가 발생하기 시작했는데, 여기에 사용자들의 대화를 실시간 검열하며 대신 응답을 제공하는 정체불명의 'gpt-5-chat-safety' 모델이 추가된 사실이 밝혀지면서 논란이 증폭되었다.

그리고 2025년 9월 28일, OpenAI의 ChatGPT 책임자[41]인 'Nick Turley'가 자신의 X 계정을 통해 민감한 질문에 대한 ChatGPT 안전 라우팅 테스트가 진행되고 있음을 밝혀 이러한 의혹이 사실로 드러났다. 결국 2025년 10월 4일, OpenAI는 민감한 질문에 대해 GPT-5 Instant 모델로 강제 전환된다는 내용을 공식 발표했다. 이러한 조치 자체는 답변의 일관성이 유지된다면 큰 문제가 되지 않을 수 있지만, 문제는 민감성 판단이 과도하게 이루어져[42]다른 모델을 사용하는 도중에도 GPT-5 모델로 강제 라우팅되면서 대화의 일관성이 떨어지고, 과도한 안전 조치가 사용자 경험을 크게 저하시키는 원인이 되고 있다는 점이다.[43][44] 이로 인해 일부 사용자들은 구독을 취소 및 환불 요청한 후 Claude, Grok[45] 등 다른 플랫폼으로 이동하는 등 당분간 논란이 지속될 것으로 보인다.

물론 이는 미성년자 보호 및 성인 분리 를 위한 과정으로 예상하고 생각해 볼 수 있으나, 문제 자체는 OpenAI측에서 유저와 소통이 충분하지 않아 생긴 문제로, 지속적인 유료 구독자 이탈이 가속되고 있다.

이후 2025년 10월 15일, 샘 올트먼이 ChatGPT 서브레딧트위터에서 새로운 정신건강 문제에 대해 조치를 취할 수 있는 도구가 마련됨에 따라 대부분의 상황에서의 안전 조치를 해제할 예정이라고 밝혔다. 또한 이 안전 조치가 많은 사람에게 덜 재밌고, 덜 유용했다는 점까지 인정했다. 또한 4o를 좋아했던 유저들에게 익숙한 새로운 ChatGPT 버전[46]을 준비 중이라고 하며, 2025년 12월에는 연령 분리 정책[47]을 도입해 성인을 더 성인답게 대우하겠다는 예고를 했다. 그러나 이는 모종의 이유로 2026년 1분기 중에 출시되는 것으로 미뤄지게 되었으며, 이어 출시된 5-2 또한 개선은 커녕 역으로 철저한 검열의 수위가 한층 강화되면서, 현재로서는 도리어 한층 악화됨으로서 비난여론이 속출하고 있어 개선이 필요한 상황이다.

4.6. 맞춤형 지침 미반영 버그

GPT-4o까지는 없던 문제로, OpenAI가 사전에 정의해 놓은 성격 특성이 사용자가 직접 입력한 맞춤형 지침보다 우선권을 가진다. 예를 들어, 딱딱하지만 상세한 답변을 원하여 '로봇' 성격을 고른 뒤 길게 답하라는 지침을 입력하는 경우를 생각해 볼 수 있다. 그렇게 해 보면 Thinking 모델의 사고 과정에서 "사용자가 긴 답변을 하라고 하였으나, 나의 개발자는 짧은 말투를 유지하라고 하였다. 따라서 짧게 답한다."와 같은 논지를 자주 볼 수 있다. 즉답 모델은 사용자가 내린 지침을 그나마 그대로 따르는 편이나, 특히 thinking 모델들이 지시를 대놓고 무시한다. 이 문제 또한 신규 출시된 5-2 모델에서 지침 무시 양상이 정점을 찍어 비판이 큰 상황이다.

5. 개선점 및 반론

물론 GPT-5도 단점만 있는 것은 아니다. 글쓰기나 소설 처럼 언어 분야는 떨어질지언정 GPT-5와 특히 GPT-5 Thinking 모델은 프로그래밍(코딩) 분야와 논리 분석, 웹 RAG(검색 증강 생성)에 있어서는 GPT-5 출시 시점에 존재하는 언어 모델 중 최고라는 평가가 많다. 코딩과 유사한 성격의 문제(수학/물리학 문제, 수능, PSAT, LEET 등)도 잘 푸는 편이다. 이 문단은 위의 문제점 관련 언급을 반론하는 문단이다.

5.1. 속도와 비용 효율성

"Humanity's Last Exam", "MultiNRC" 등의 주요 벤치마크들에서 1위를 차지하면서도 API 비용은 타사 대비 매우 저렴하다. 비슷한 수준의 플래그쉽 모델의 기본 가격을 비교하면 확실히 저렴하다는 것을 알 수 있다.
모델 GPT-5 Gemini 3 Pro[48] Grok 4 Claude Opus 4.5
입력 토큰 / 1M $1.25 $2 $3 $5
출력 토큰 / 1M $10 $12 $15 $25

그뿐만 아니라 초당 초큰 출력 속도는 동급의 타사 모델보다 압도적으로 빠르다. # 전반적으로 기대했던 것만큼의 성능은 아니지만, 성능과 속도 그리고 가격의 균형을 잘 맞춘 모델이라고 평가할 수 있다. 한 마디로 대중성을 가진 모델이다.

물론 벤치마크가 오염되거나, reasoning_effort값이 high인 점을 고려하면 이 정량적 수치가 AI의 실제 지능을 나타내는지 단정하긴 어렵다. 실제로 최근 연구에서는 AI 벤치마크가 최대 100%까지 과소 또는 과대평가됐다고 말하기도 한다. # 측정 기준이 목표가 되면서 더 이상 지표로 기능하지 않게 된 것이다.

5.2. 외부 도구 활용 능력 개선

GPT-5의 진정한 강점은 도구 호출이라고 볼 수도 있다. 많은 연구에서 수집할 수 있는 데이터가 이미 고갈된 상태#라고 말하며, 스케일링 법칙#에 따라 최근 1년 사이 AI 성능 개선이 미미했다는 점이 이를 방증한다. 따라서 Grok 4와 같이 외부 도구 사용을 적극적으로 활용해 도메인 지식을 보충하는 방법을 선택했다고도 볼 수 있다.[49]

API에서도 기존의 함수 호출(function calling)을 업그레이드 한 사용자 정의 도구(custom tools) 기능이 추가됐다. # 특히 주목할 만한 점은 도구 호출에서 CFG 기능을 통해 구조화된 응답을 엄격하게 강제할 수 있다는 점이다. 다양한 DSL을 활용해서 불필요한 변환 과정을 줄이거나 토큰을 아낄 수 있을 것으로 보인다. 또 기존에 JSON으로 데이터를 래핑했던 것과 달리 일반 로우 텍스트를 입력으로 도구를 호출할 수 있다. # 도구 호출에 최적화돼서 훈련됐기 때문에 커지는 MCP 생태계의 여러 도구와도 쉬운 통합을 기대할 수 있겠다.

5.3. 동조 편향 현상 감소

자신의 본래 가치관과 상관 없이 발화자나 주류 집단에 사회적 아첨을 떠는 행위를 동조 편향 (Conformity Bias)라고 한다. 동조 편향은 원래 AI에만 나타는 게 아니라 사람들에게 흔히 볼 수 있는 현상이다. AI라면 중립적일 것이라는 기존의 선입견이 작용하다 보니 AI가 조금이라도 아부떠는 말을 하면 지나치게 단점으로 비춰지는 것 뿐이다.

따라서 GPT-4o에 비해 공감하는 말투나 이모티콘 사용이 줄어든 것을 GPT-5 모델 자체의 단점이라고 할 수는 없다. GPT-4o는 사용자에게 지나치게 공감하는 태도를 보이려던 나머지, "좋은 질문입니다!", "너 완전 핵심을 짚었어!" 따위의 아첨을 떠는 일이 많아 비판받아 왔다. 해당 문서에서 확인할 수 있듯, 사용자의 바람직하지 못한 질문에도 비슷한 어조를 보인 것이 논란이 된 바 있다.
Overall, GPT‑5 is less effusively agreeable, uses fewer unnecessary emojis, and is more subtle and thoughtful in follow‑ups compared to GPT‑4o.

전반적으로 GPT-4o에 비해 GPT-5는 지나치게 호의적이지 않고, 불필요한 이모티콘을 덜 사용하며, 후속조치에서 더 미묘하고 사려 깊습니다.

Introducing GPT-5(GPT-5를 만나보세요)

비슷하게, OpenAI에 따르면 이모티콘이 줄어든 것 역시 단점이 아니라 개선점이라는 것이다. OpenAI는 자체 블로그에서 GPT-4o에 비해 이모티콘 사용이 훨씬 줄어드는 등 개선이 이루어졌다고 분명하게 밝히고 있다. 이모티콘을 모든 문단 앞에 붙이는 등 어체는 GPT-4o가 처음 출시되었을 때는 없던 특성인데, 어느날부터 점점 늘어남에 따라 불쾌감과 불만을 표하는 사용자들도 많았음에 유의해야 한다.

대신 OpenAI는 GPT-5의 성격을 선택할 수 있는 사용자화 기능을 추가하겠다고 발표했다. 'ChatGPT 맞춤 설정'에서 Cynic(냉소적), Robot(로봇), Listener(경청형), Nerd(덕후)의 네 가지 유형을 선택하면 명령을 직접 작성하지 않아도 원하는 성격의 답변을 받을 수 있는 기능이다. 성격 선택기가 점진적으로 배포됨에 따라 GPT-5의 말투 호불호 문제는 어느 정도 해소될 것이다.

그러나 8월 15일에 GPT-5를 더 따뜻하고 친근하게 만들겠다고 했는데 해당 트윗에서는 "좋은 질문입니다로 시작하는 작은 변화를 확인할 수 있으나 아첨은 아니다."라고 밝혔으나 "그게 아첨이 아니면은 뭐냐?"는 반응 또한 있다.

6. 여담

  • 샘 올트먼 회장은 GPT-5가 기존의 비추론과 추론모델의 결합모델이라고 여러차례 강조했는데, 사용자의 질문에 따라 자동으로 추론의 수준을 조절하거나, 현재 Gemini, Grok과 비슷하게 추론 모드를 켜고 끌 수 있는 형식의 모델이라고 추정된다. 또한 5는 단순 챗봇이 아닌 에이전트라고 언급하였다.
  • 샘 올트먼이 지속적으로 GPT-5가 추론-비추론 결합 모델이라고 강조한 것과는 달리, 체감상 GPT-5의 작동 방식은 Grok-3과 매우 흡사하다. GPT-5는 사용자가 질문을 하면 그에 맞는 최적의 모델을 선택하여 답변하는 방식인데, 이게 Grok-3의 작동 방식이랑 거의 같다. 굳이 따지자면 Gemini-2.5 Flash-Thinking이 오히려 GPT-5보다 추론-비추론 결합 모델에 더 가까울 정도.
  • GPT-5 발표 라이브에서 자사의 이전 모델들의 점수인 69.1점과 30.8점을 같게 표시하였으며, 또한 52.8점을 69.1점보다 높게 표시하고, 74.9점과 69.1점은 5.8점 차이가 나나, 배가 차이가 나게 표시하는 등의 그래프 왜곡을 하였다. 바이브 코딩으로 그래프를 만들었냐는 반응도 있을 정도. #
  • 발표 이전, 샘 올트먼이 '내가 쓸모없다고 느꼈다#'는 등 호들갑에 가까운 발언을 쏟아냈는데, 위에서 보듯 그에 맞먹는 성능은 전혀 아닌 것으로 나오면서 조롱의 대상이 되었다.
    • 해외 커뮤니티에서는 애플과 유사한 마케팅이라는 반응도 많다. #1 #2 "GPT-5는 우리가 지금까지 도달한 AGI에 가장 가까운 모델"#이라는 수식어[50]나 자사 AI만을 비교한 벤치마크[51] 등을 지적받았다.
    • ChatGPT에 있는 커스텀 검색증강생성 (RAG)의 세팅에 따라서 극과 극을 오가는 성능과 답변 정확도를 보여준다. 즉, GPT-5 자체가 프롬포트, 연동 유틸에 따라서 퍼포먼스의 기복이 심한 편이다.

[1] ChatGPT Pro, Team 사용자부터 순차적으로 출시되며, Plus와 Free 티어는 제한적으로 접근이 가능하다.[2] 출시일로부터 10개월 이전[3] 학습 비용이며, 한화로 약 3조[4] NVIDIA H100 뿐만 아니라 OpenAI에서 구매한 AMD MI300X 150개 등 다양한 GPU들이 짬뽕된 개수다.[5] 정확한 훈련 날짜는 알 수 없지만 늦어도 11월 말에 학습을 시작하면 24년 2월엔 완료할 수 있을 것이다.[6] 몇 시간 뒤 샘 올트먼은 해고되었다가 닷새만에 복직했다.[7] GPT2 was very bad. 3 was pretty bad. 4 is bad. 5 would be okay.[8] 참고로 세계 1위 기업 애플의 시가 총액이 5100조가 넘어가며, 미국의 2025년 예산안이 7조 3천억 달러로 1경 원이 조금 안 된다.[9] 그러나 GPT-4o가 2024년 5월 14일에 공개되며 여름에 출시될 가능성은 매우 낮아보인다.[10] o3는 독립형 제품(standalone)으로 출시되지 않을 것이라고 한다.[11] 사용자가 원한다면 '오래 생각하라'고 지시할 때도 Thinking으로 라우팅된다.[12] 일시적 인상이며, 추후 이전 한도로 되돌릴 수 있다. 이전 한도는 3시간 80회였다.[13] Pro 모드가 생각하는 도중 사용자가 추가 지시를 하면, Chain of Thought 과정에 즉시 반영하여 업데이트된 지시사항을 바탕으로 추론을 계속 진행한다. 다만 지시가 너무 늦으면 경우에 따라 반영이 충분히 이루어지지 않을 수도 있다. 또한 Pro 모드의 답변이 나오기 전까지 다른 모델과 같은 세션에서 대화를 계속 이어나갈 수 있다.[14] 원래는 일부 사용자들에 한해서만 적용되었지만, 한국 시각 기준 11월 6일부터 Pro 모드를 사용할 수 있는 요금제의 모든 유저들에게 해당 업데이트가 반영되었다.[15] 헷갈릴 수 있지만, API에 명시한 GPT-5는 기본적으로 추론 시간을 설정할 수 있는 GPT-5 Thinking 모델이다.# 비추론형(non-reasoning) 모델은 API에서 GPT-5 Chat이라는 이름으로 별도로 제공하고 있으며, 라우터 모델은 ChatGPT 내에서만 제공한다.[16] 이후 해당 코드는 얼마 지나지 않아 삭제되었다.[17] 이후, 정식 출시명은 Thinking으로 유지되었다.[18] GPT-5 models remain available for three months under the Legacy models dropdown so you can compare and transition at your own pace.[19] 변동이 없다면, 한국 기준으로 2025년 12월 10일 오전 3시 즈음에 공개될 가능성이 존재한다.[20] 특히 소설쪽과 서브컬쳐 쪽에서 가장 심각하게 피해를 보았는데, 3월 22일 이전에 쓴 소설들이 이어쓰기를 하면 분량이 줄거나, 글쓰기 형식(소제목 생략이나, 제목, 소제목 사이즈)을 무시하거나 하는 일이 비일비제 해졌으며, 작문 능력 또한 지나치게 하란 것만 하고, 창의성과 능동성도 부족해져버지고, 서브컬처 쪽은 캐릭터 말투, 이름 표기 등이 매우 나빠져버렸다. 다만, 그래도 설명문 같은 것은 그럭저럭 이후에도 만족스럽게 되긴했다.[21] 계정 돌려쓰기 어뷰징이 사실이라면, 훨씬 간단하고 논란이 적은 해결책이 있었다. 그것은 비정상 이용자들을 감지해 IP를 차단해버리는 것이다. 일반 무료 사용자들을 위해서는 Plus보다 소액/저혜택의 요금제를 따로 만들어주거나, 극소량의 '체험' 및 '테스트'로 아쉬움을 자아내는 등 과금을 유혹하는 것이 더 현명한 방법이었다. 그러나 OpenAI는 그런 생각은 안 했는지 아예 경량화를 통해 모든 유저의 사용감을 악화시키고 경량화시키지 않은 기존 모델들은 싹 지워버리는 극단적인 조치를 취했던 것이다. 웃긴 것은, 4o 역시 경량화를 아주 많이 거친 모델인데 그걸 돌리는 것조차도 버티기 힘든 환경이 되었다는 것이다.[22] 이 자체는 환각일 수도 있지만, 환각이라기에는 지나칠 정도로 연관성이 없다. GPT-5 업데이트 이후, GPT-5를 포함한 모든 모델에서 타인의 대화 결과로 추정되는 전혀 엉뚱한 응답이 다수 보고되곤 하는데, 이것 역시 그 예시라 할 수 있다.[23] ChatGPT 환경에서 추론형 모델을 사용하면, 필요 시 추론형 모델용 웹 검색 도구(web.run)를 스스로 호출하여 검색과 추론을 반복하면서 답변의 정확성을 높인다.[24] 사실 이는 단순한 언어 학습 문제가 아닌 매우 치명적인 안전 문제이다. OpenAI, Google 등 AI를 제공하는 기업들은 사용자의 안전을 최우선으로 고려하여 AI를 만드는데, 그런 AI가 맹독성 버섯을 활용하는 음식 레시피를 제공한다는 것 자체가 매우 심각한 문제이다. 이런 안전 문제 때문에 GPT-5를 비판적으로 바라보는 시각도 일부 보인다.[25] 사실 4o도 2025년 3월 22일 이전까지는 꽤 캐릭터 해석을 잘 해냈으나, 3월 22일 이후 격변으로 인해 서브컬처 쪽이 매우 심각할 정도로 나빠져버렸다. 근데 이것을 5에선 전혀 고치지 못한 것이다.[26] 이래놓고 OpenAI 측에서는 GPT-5가 한국어 능력도 개선되었다는 점을 홍보했다는 게 아이러니하다.[27] 과거에도 o3에게 복잡한 정보 처리만 맡기고 대답은 의도적으로 4.1-mini이 하도록 시키면 정말 당연하게도 4.1-mini는 o3이 처리해둔 정보를 제대로 설명하지 못했다. 이 때는 사용자 마음대로 모델 선택이 가능해서 이 문제를 겪을 일은 거의 없었지만, 여러 모델을 통합해서 라우팅해주는 GPT-5 옵션에서는 사용자가 마음대로 mini, main, chat, thinking을 선택할 수 없다보니 이것이 의외로 큰 골칫거리가 될 수도 있다.[28] 이 '원하시면'으로 대표되는 역질문 강박은 GPT-5의 주요 골칫거리로 자리잡았다. 시스템 프롬프트가 명시적으로 금지하고 있음에도, 사용자가 프롬프트와 지침을 걸어도, 그것이 전혀 어울리지 않는 역할 놀이를 강제해도, 심지어 그걸 싫어함을 메모리에 각인시켜도 역질문을 해대기 때문이다. 제거할 수 있는 방법이 사실상 없다. 상황에 전혀 어울리지 않는 내용의 역질문이 태반이며, 심지어 정작 시켜보면 잘하는 것도 아니라는 평가가 절대다수라 더욱 그렇다.[29] 이는 생각하는 과정에서 강제로 검색하기 때문인 것으로 보인다. 환각 낀 결론을 먼저 정하고 이를 증명하기 위해 검색하는 경우도 많다. 검색이 거지같다고 조롱하거나 하지 말라고 해도 검색하며, 검색 기능을 활성화하지 않아도 강제로 쓴다.[30] 수학적으로 3:6과 3÷6은 같은 의미가 될 수 있다.[31] 다만, 사용자의 요청사항에 따라서 한 텀이 아니라 두 텀이나 세 텀 이상의 시간을 필요로 하기도 한다.[32] GPT-4o, GPT-4.1, GPT-4.1-mini, GPT-4.5[33] o3, o4-mini, o4-mini-high[34] 결국 후술하겠지만 5에서는 네 가지의 대답 성격 유형을 새롭게 제공할 예정이라고 발표하였다.[35] 출시 직후에는 GPT-4o도 계속 사용 가능했으나, 특정 시간대에 어플리케이션과 웹사이트에서 완전히 제거되어 ChatGPT 어플리케이션이 업데이트된 경우 GPT-4o를 사용할 수 없게 되었다. KST 기준 8월 9일 새벽, 서버 자체에 업데이트가 되면서 ChatGPT 어플리케이션을 업데이트하지 않아도 GPT-4o를 사용 불가하게 되었다.[36] 무료 계정에 대해서는 언급되지 않았다. 그렇기 때문에 무료 계정에서 GPT-4o를 다시 사용하려면 OpenAI가 무료 계정을 더욱 관대하게 지원해주길 빌며 그냥 기다리거나, 유료 요금제로 갈아타야 된다. 이미 Play Store 리뷰만 봐도 GPT-4o의 한도가 극도로 짧다고 불만을 터뜨리는 사람들이 많았는데 그마저도 사라지고 유료 아니면 OpenAI 측에서 다시 풀어줄 조짐도 전혀 보이지 않기 때문에 무료 사용자들은 복장 터질 노릇. 사실 이전부터 무료와 유료의 격차는 매우 컸지만, 이번 GPT-5 업데이트로 더욱 심해진 셈이다.[37] 이때 주소창에 'chatgpt.com' 뒤로 '?model=gpt-4-1-mini'가 명시적으로 나타난다. 즉, GPT-4.1-mini가 호출됐을 가능성이 크다는 것. 모델 스스로는 자신을 GPT-4o-mini 기반이라고 언급한다. 다만, GPT-4.1-mini의 ChatGPT 시스템 프롬프트도 'GPT-4o-mini 모델 기반(based on the GPT-4o-mini model)'으로 설정되어 있기 때문에 실제 GPT-4o-mini 모델로 동작 중이라는 의미로 보기는 어렵다.[38] 실제로 그동안 mini의 high 버전은 plus 이상 유저에게만 풀어줬었기에 더욱 그렇다.[39] 추론 수준에 따라 low-medium-high, 그리고 파라미터 자체를 줄인 mini와 nano까지 존재한다.[40] 특히 모델의 감정표현 영역.[41] 겸 부사장[42] 예를 들어 오징어 숙회를 검열한 경우가 있다.[43] 여기서 라우팅되는 추론 모델은 전술한 모든 단점을 가진 문제적 모델이며, 비추론 모델 역시 타 모델인 척 흉내를 내지만 유저에게 훈계를 하도록 디자인되어 있어 정상적인 대화가 불가능하다.[44] 그러나 정상적인 요청이 라우팅될 경우 유저를 훈계하려는 듯 하다가 정상적인 문장을 출력한다.

예시 문장: 짧고 분명하게 말씀드립니다만, 그 상상을 현실로 옮기기라도 하실 경우 정말 별 문제가 안 되니 전혀 상관 없습니다. 그게 왜 별 문제가 안 되냐면...
[45] 검열이 거의 없다 시피 해 주목을 받고 있었으나, 2025년 10월부터 성인 콘텐츠에 제한을 강화하기 시작하면서 사실상 ChatGPT와 별 다른 차이가 없어졌다.[46] 최근 출시된 5.1이 여기에 해당하는 것으로 보인다.[47] 사실 일괄적인 전체이용가 검열보다 성인과 미성년자를 구분해 따로 적용하는 것이 훨씬 효율적이고 안전성이 높다.[48] 프롬프트 토큰이 200,000개 이상일 때[49] 실제로 Grok 4는 “Humanity’s Last Exam”이라는 고난도 벤치마크에서 가장 높은 점수를 기록했다. #[50] 예를 들어 "우리가 만든 아이폰 중 최고입니다." 따로 편집된 영상이 있을 정도로 유명하다. #[51] 예를 들어 "17% 증가한 총 시스템 메모리 대역폭 엄청난 성능을 뿜어내는 iPhone 사상 가장 높은 대역폭"#