GPT-5


{{{#!wiki style="margin:0 -10px -5px" {{{#000,#fff {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" {{{#000,#e5e5e5	<colkeepall> 제품군
서비스	ChatGPT(ChatGPT/기능 · 사용법) · OpenAI(인공지능) · Operator · Codex · Sora · Atlas
모델	GPT GPT-1 · GPT-2 · GPT-3 · GPT-4 · gpt-oss · GPT-5 · GPT-6^{개발 중} o-시리즈 o1 · o3 · o4-mini
	DALL·E · Codex · CLIP · Whisper · Voice Engine · ~~Sora~~ · GPT-Image · SearchGPT · CUA
관련 인물
일론 머스크 · 샘 올트먼 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 · 다리오 아모데이

}}}}}}}}}}}}}}} ||

언어 모델
{{{#!wiki style="margin:-0px -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"	OpenAI	GPT (1 · 2 · 3 · 4.x · 5.x · 6^{개발 중}) GPT-OSS (20B · 120B) OpenAI (o1 · o3 · o4)
구글	Gemini (1 · 1.5 · 2 · 2.5 · 3 · 3.1 · 3.5) Gemma · LaMDA · PaLM 2
Anthropic	Claude (Fable · Opus · Sonnet · Haiku)
xAI	Grok
메타	LLaMA · Muse Spark
기타	HyperCLOVA(네이버) · 카나나(카카오) · 삼성 가우스(삼성전자) · 엑사원(LG AI연구원) · 믿:음(KT) · A.X(SK텔레콤) · Solar(업스테이지) NVIDIA Nemotron(NVIDIA) · Phi(Microsoft) · Apple Foundation Models · OpenELM(Apple) DeepSeek · Qwen(알리바바) · 어니봇(바이두) · Kimi(Moonshot AI) · MiniMax · Z.ai(GLM) 나마즈(Sakana AI)	}}}}}}}}}

#!style
.box {display: inline; padding: 2px 3px; border-radius: 3px; background: #cedeff; font-size: 0.75em}

<colcolor=#000,#000><bgcolor=#cedeff,#cedeff> GPT-5 Generative Pre-trained Transformer 5
<colbgcolor=#CEDEFF,#CEDEFF> 출시일 [PST]	`#!wiki class="box" {{{#000,#000 '''5'''}}}` 2025년 8월 8일 `#!wiki class="box" {{{#000,#000 '''5.1'''}}}` 2025년 11월 12일 `#!wiki class="box" {{{#000,#000 '''5.2'''}}}` 2025년 12월 11일 `#!wiki class="box" {{{#000,#000 '''5.3 Instant'''}}}` 2026년 3월 3일 [2] `#!wiki class="box" {{{#000,#000 '''5.4'''}}}` 2026년 3월 5일 `#!wiki class="box" {{{#000,#000 '''5.5'''}}}` 2026년 4월 23일 [3] `#!wiki class="box" {{{#000,#000 '''5.6'''}}}` 2026년 7월 2주차 (예정)[4]
지식 단절 [PST]	`#!wiki class="box" {{{#000,#000 '''5'''}}}` `#!wiki class="box" {{{#000,#000 '''5.1'''}}}` 2024년 9월 30일 [6] `#!wiki class="box" {{{#000,#000 '''5.2 ~ 5.5 Instant'''}}}` 2025년 8월 31일 [7] `#!wiki class="box" {{{#000,#000 '''5.5'''}}}` 2025년 12월 1일 [8]
서비스 종료일 [PST]	`#!wiki class="box" {{{#000,#000 '''5'''}}}` 2026년 2월 13일 [10] `#!wiki class="box" {{{#000,#000 '''5.1'''}}}` 2026년 3월 11일 `#!wiki class="box" {{{#000,#000 '''5.2'''}}}` 2026년 6월 12일 [11] `#!wiki class="box" {{{#000,#000 '''5.3 Instant'''}}}` 2026년 8월 5일
개발사	OpenAI
기능	언어 모델
링크

1. 개요2. 역사3. 모델

3.1. GPT-5

3.1.1. gpt-5-main3.1.2. gpt-5-main-mini3.1.3. gpt-5-thinking3.1.4. gpt-5-thinking-mini3.1.5. gpt-5-thinking-nano3.1.6. gpt-5-thinking-pro3.1.7. gpt-5-codex

3.2. GPT-5.13.3. GPT-5.23.4. GPT-5.33.5. GPT-5.43.6. GPT-5.53.7. GPT-5.6

4. 논란 및 문제점

4.1. 언어 이해력 및 표현력 저하4.2. 양극화4.3. 불안정한 프롬프트 및 쿼리 처리4.4. 구버전 모델 삭제 번복에 따른 혼란4.5. 불명확한 응답 모델4.6. 과도한 안전 조치4.7. 맞춤형 지침 미반영 증가4.8. 방어적인 설명과 무례함

5. 개선점 및 반론

5.1. 속도와 비용 효율성5.2. 외부 도구 활용 능력 개선5.3. 동조 편향 현상 감소

6. 여담

1. 개요

<nopad>

OpenAI에서 개발한 GPT 시리즈의 5번째 언어 모델.

==# 공개 전 #==

2023년

2023년 4월 14일, MIT의 행사에서 샘 올트먼은 AI개발을 6개월만 멈추자는 질문에 대한 답변으로 GPT-5 개발을 당분간 하지 않을 것이라고 밝혔다.#
그로부터 6개월이 지난 10월 18일, 마틴 슈크렐리는 OAI에서 GPT-5 훈련을 곧 시작하며, 약 25억 달러[12]와 GPU 50만 대[13]를 투입해 3개월[14] 동안 진행될 것이라고 유출했다.#
11월 12일, 샘 올트먼은 '파이낸셜 타임즈'의 기자와의 인터뷰에서 GPT-4보다 훨씬 혁신적이고 근본부터 완전히 새롭게 설계된 GPT-5를 개발 중이라고 밝혔다.#
11월 17일, 샘 올트먼은 샌프란시스코에서 열린 정상 회담(APEC)에서 GPT는 지금까지 네 번의 도약이 있었고, 그 중 하나가 불과 몇 주 전이었다고 언급했다.[15]

2024년

1월 11일, 샘 올트먼은 빌 게이츠의 팟캐스트에 출연해 비디오 이해 능력에 대해 언급하며, 차세대 GPT 모델은 말하기, 이미지, 코드, 비디오를 아우르는 완전한 멀티모델이 될 것이라고 했다. 또한 GPT-4가 1만 개의 질문 중 하나만 만족스러운 것이었다며, 향후 GPT-5, 6와 같은 모델을 개발할 때, 좋은 답변의 빈도 수를 늘리는 것에 초점을 두고 있음을 암시했다.
1월 18일, 다보스에서 열린 세계경제포럼에서 샘 올트먼은 "GPT-2는 매우 나빴다. GPT-3는 꽤 나빴다. GPT-4는 나쁘다. 하지만 GPT-5는 괜찮을 것이다.[16]"라고 했다.
2월 7일, 오픈AI 내부 직원에 따르면 사용자의 컴퓨터를 완전 장악하고 자동화시키는 '자율 에이전트'가 곧 출시될 것이며, 성능이 대폭 향상된 GPT-5와 연계 가능성과 더불어 "모든 것을 바꿔놓을 것"이라고 강조했다.#
2월 9일에 올라온 기사들에 따르면, 샘 올트먼이 세계의 반도체 산업을 개편하는 자금으로 약 1경 원 [17]의 투자가 필요하다고 전망했다 한다.#
비즈니스 인사이더에 GPT-5가 일부 기업을 대상으로 테스트 중이며, 2024년 여름에 출시될 가능성이 있다는 내용의 보도가 나왔다. # [18]
3월 19일, 샘 올트먼이 렉스 프리드먼의 유튜브 채널에 출연해 GPT-5에 대한 이야기를 나눴다. # 샘 올트먼은 요즘은 GPT를 도구가 아닌 동료로 여길 정도로 의존하고 있다고 말했다. GPT-5는 단순한 질문에 답을 하는 것을 넘어서 사용자와 문제 해결을 함께 고민하고, 생각지 못한 새로운 아이디어와 관점을 제시할 수 있을 것이라 밝혔다. 또한 GPT-5는 큰 문제를 만나면 문제를 쪼개 하나씩 차근차근 해결하는 능력을 갖췄다고 밝혔다. GPT-5가 출시되면 GPT-4가 구식으로 느껴질 정도의 성능 향상이 있을 것이라고 자신했다.
12월 5일, 샘 올트먼이 올해로 GPT-5를 출시할 계획은 없다고 밝혔다.#

2025년

2월 13일, 샘 올트먼이 몇 달 안에 GPT-5를 출시할 것이라고 밝혔다. # # 또한 GPT-5는 추론 모델인 o-시리즈와 통합되어 추론, 비추론 모델 구분없이 하나의 제품으로 출시할 것이며[19], GPT-5는 무료, 유료 구분없이 모두가 무제한 액세스가 제공될 것이라고 선언했다. 대신 무료, Plus, Pro 티어 별로 지능 수준이 다르게 책정되는 방식으로 실행될 것이라고 한다. 또한 샘 올트먼은 시스템 1, 2 회로와 유사하게 복잡한 작업에서는 많은 추론시간을 소모하고 단순 작업이나 글쓰기 등에서는 추론을 하지 않고 GPT-5의 출력을 그대로 내보낼 것이라고 언급한 바 있다.
2월 22일, AI 관련 정보에 신뢰성이 높은 The Verge에 의하면 GPT-5는 5월에 출시될 것이라고 한다. #
4월 4일, 샘 올트먼의 트윗에 따르면, 2월 13일의 o3의 출시와 관련된 발표 내용을 수정해서 o3와 o4-mini를 독립 모델로 몇 주 안에 출시한다고 밝혔다.# 또한 GPT-5는 이로부터 몇 달 뒤에 출시할 것이라고 밝혔다.
7월 20일, OpenAI의 공식 X 계정에서 '곧(soon)' 출시될 것이라고 밝혔다. #
8월 4일, 샘 올트먼이 자신의 트윗에 GPT-5의 실사용 캡처본을 업로드하면서 출시가 얼마 남지 않았음을 보여주었다.#
8월 6일, 샘 올트먼이 자신의 X 계정에 이번 주 내로 GPT-5의 출시를 암시했다.#
8월 7일, The Verge에 따르면 GPT-5 공개 행사가 한국 시간 기준 8월 8일 오전 2시에 열린다고 한다. #

2. 역사

2025년 8월 8일, GPT-5가 공식 생방송을 통해 정식 공개됐다.# 자사 서비스인 ChatGPT에서 사용할 수 있도록 공개됐으며, 현재는 Pro와 Team 요금제 이용자는 무제한으로, Plus 요금제 이용자는 일정 한도에 한해 접근할 수 있다.

OpenAI와 관련이 깊은 Microsoft는 Microsoft Copilot에 GPT-5 모델을 반영할 예정이라고 밝혔다.#
서비스 단에서 깊은 연계를 이루고 있는 Apple Intelligence 또한 OS 26 업데이트에 GPT-5 모델을 반영할 예정이라고 밝혔다. #

3. 모델

Auto 자동으로 생각하는 시간 결정

사용자의 쿼리에 대해서 ChatGPT가 컨텍스트 기준으로 처리 복잡도를 평가해 이를 기반으로 Instant와 Thinking 둘 중 하나의 모델을 자동으로 선택(라우팅)하는 옵션이다. 응답이 바로 나오지 않는 질문이라고 판단하면 Thinking 모델로 넘긴다. 이때 '더 좋은 응답을 위해 더 오래 생각하는 중' 이라는 메시지가 출력된다.[20] 하지만 Thinking 모델을 직접 고른 것보다 생각 시간이 훨씬 짧게 설정되어있어서 보다 정확한 답을 원하면 가급적 Thinking 모델을 직접 선택하는 것이 좋다. 생각을 원하지 않으면 건너뛰기를 눌러 Instant로 전환해 답변의 정확도가 떨어지더라도 바로 응답할 수 있다. 8월 13일 기준, Plus 요금제는 3시간에 160개 메시지[21]를 보낼 수 있으며, 한도 초과 시 GPT-5 mini(비추론)로 전환된다. Business, Enterprise는 비추론 모델만 무제한, Pro 요금제는 두가지 모두 무제한으로 대화할 수 있다.

Instant 즉시 대답

비추론 모델 옵션. 생각하는 과정 없이 즉시 대답한다. Thinking 모델에서 추론 시 건너뛰기를 누르면 과정을 중단하고 이 모델이 즉시 응답한다. GPT-5.1부터는 필요 시 적응형 생각을 통해 잠깐동안 연산을 시도하기도 한다.

Thinking mini 신속한 사고

gpt-5-thinking 모델의 경량화인 gpt-5-thinking-mini 모델을 사용하는 옵션이다. 기본적으로 ChatGPT에선 숨겨져 있으며, 무료 사용자가 ChatGPT에게 오래 생각하라고 지시하면 이 모델을 사용한다. 유료 사용자는 설정에서 'Show additional models'를 활성화해야 확인할 수 있다. 경량화 버전인 만큼 정확도는 다소 낮고 생각하는 시간도 짧지만 빠르게 응답한다.

Thinking 좋은 답변을 위해 더 오래 생각

고급 추론 모델 옵션. 자동 옵션과 마찬가지로 건너뛰기 기능이 있다. o3 등 추론 모델의 계보를 잇는 버전이다. 출시 당시 Plus와 Team 요금제에서는 주당 메시지 한도가 200개였으나, 8월 13일 기준으로 최대 주당 3,000개로 대폭 확대했다. Pro 요금제는 무제한이다. 수동으로 이 모델을 선택했을 때만 한도가 차감되며, 자동 옵션을 통해 thinking으로 라우팅된 경우에는 한도가 차감되지 않는다. 따라서 한도를 전부 사용해 Thinking 옵션을 수동으로 선택할 수 없는 경우에도 Auto를 통해서는 계속 사용이 가능하다. 대신 Auto에선 기본적으로 생각하는 시간이 훨씬 짧다.

Pro 리서치급 인텔리전스

Thinking 모델에 병렬 테스트 타임 컴퓨트(Parallel Test Time Compute)를 적용한 모드를 사용한다. GPT-5 계열 중 최고 성능을 목표로 하며, 가장 높은 정확도를 보여준다. 고품질 답변을 지향하는 옵션인 만큼 초기에는 생각 중 건너뛰기가 불가능햇으나, 2025년 10월 ChatGPT 웹 업데이트 이후, 웹 한정으로 생각 중 건너뛰기가 가능해졌고, 추가 지시사항을 입력(업데이트)할 수 있는 기능도 추가됐다.#[22][23] GPT-5.2 Pro부터는 생각 시간 옵션으로 Standard와 Extended 두 가지를 선택할 수 있게 됐다. 임시 채팅에서는 Pro 모드를 사용할 수 없다. 또한, 사용자의 맞춤형 지침과 정보는 확인할 수 있지만 사용자의 메모리를 확인할 수는 없다. 메모리를 자주 활용하고 있다면, Pro 모드는 응답 방식이 평소와 다를 수 있으므로 참고. 현재 Pro 모드는 Business, Enterprise, Pro 요금제에서만 제공된다.

사람들의 기대와 달리, GPT-5는 엄청 발전된 차세대 모델은 아니었다. OpenAI 사의 직원들의 말을 빌리면 추론 모델 중 예전 버전인 o3를 다듬은 일종의 최종 개선 모델 정도 느낌으로 출시됐다고 한다. GPT-5 옵션의 모델 자동 선택 기능은 GPT-5 모델이 아니라 ChatGPT에서 사용자들의 편의성을 위해 독자적으로 구현됐다. GPT-5 모델에 자세한 내용은 GPT-5 시스템 카드를 참조. # 2025년 8월 기준으로 모든 모델은 2024년 10월까지의 정보만 학습되어 있다. 그 이상의 최신 사실을 원한다면 검색은 필수적이다.

GPT-5 모델들 중에서 API로 제공중인 버전들은 Thinking에 대응하는 GPT-5, GPT-5 nano, GPT-5 mini 그리고 Main에 대응하는 비추론형 GPT-5 chat이며 Pro 모드는 GPT-5 Pro로 제공중이다.

3.1. GPT-5

2025.8.8 ~ 2026.2.13[24]

3.1.1. gpt-5-main

GPT-5의 비추론형 모델. ChatGPT 내에선 GPT-5 Instant, OpenAI API에선 "GPT-5 Chat"이라는 이름으로 제공 중이다.[25] 전문적인 내용이 아닌 일상적인 대화나, 모델이 생각하고 있을 때 '건너뛰기'를 선택하면 이 모델이 응답한다.

3.1.2. gpt-5-main-mini

GPT-5의 비추론형 경량화 모델. ChatGPT 내 GPT-5의 한도가 끝나면 이 모델이 사용된다. 08월 14일 기준, API로는 사용할 수 없다.

3.1.3. gpt-5-thinking

GPT-5의 고급 추론 모델. OpenAI API에선 "GPT-5"라는 이름으로 제공 중이다.# o3와 평균적으로 비슷하거나 더 빠른 응답 속도를 보여주며, 정확도는 확실히 향상되어 o3 등이 못 푸는 문제들도 푸는 모습을 보인다.

3.1.4. gpt-5-thinking-mini

2025.8.8 ~ 2026.4.18

일반적인 GPT-5 thinking보다 파라미터가 줄어든 경량 고급 추론 모델이다. ChatGPT 내에선 'Thinking mini'에 대응하며, OpenAI API에선 "GPT-5 mini"라는 이름으로 제공 중이다.

GPT-5.4의 Mini, Nano 버전이 공개되면서 4월 18일 서비스 종료하게 됐다.

3.1.5. gpt-5-thinking-nano

mini 모델보다 파라미터가 더 줄어든 초경량 고급 추론 모델로 실시간 쿼리 처리에 적합하다. ChatGPT에서는 쓰이지 않으며 오로지 API를 통해서만 이용할 수 있다. OpenAI API에선 "GPT-5 nano"라는 이름으로 제공 중이다.

3.1.6. gpt-5-thinking-pro

GPT‑5 thinking 모델에 병렬 테스트 타임 컴퓨트(Parallel Test Time Compute)를 적용해 복잡한 과제에서 정확도를 높이는 것을 목표로 한 고급 추론 옵션이다. 기존 o3 pro보다 더 나은 정확도를 보여준다. o3 pro와 마찬가지로 사용자가 요청한 응답을 한 글자씩 실시간으로 출력하는 Streaming 방식은 지원하지 않는다. 2025년 10월 7일에 드디어 API로 공개됐다.

3.1.7. gpt-5-codex

OpenAI Codex 전용으로 튜닝된 GPT-5 모델. 2025년 9월 16일에 Codex에 추가됐다.

이후 GPT-5 모델의 버전을 따라 GPT-5.3-Codex까지 등장했으나, 5.4부터는 별도의 Codex 모델로 분리하지 않고 단일 모델로 동작한다. Codex 모델 선택 페이지에서도 Codex 접미사 없이 GPT-5.4, 5.5 하는 식으로 나타난다. Codex 접미사가 떨어진 5.4 버전부터 Codex가 Claude Code를 능가하는 생산성을 보여준다는 평가가 주를 이루게 됐을 정도로 큰 발전을 보여주었다.

3.2. GPT-5.1

2025.11.13 ~ 2026.03.11

2025년 10월 25일부터 존재가 확인된 모델이다. 초기에는 OpenAI가 개발하는 Github 리포지토리에서 확인됐으며, 11월 6일엔 ChatGPT 웹 백앤드 코드에서 존재가 확인됐다.[26] 이로써 최소한 gpt-5.1-mini 와 gpt-5.1-thinking 모델은 확실히 존재하는 것이 입증됐으며, 이전의 4.1 같은 소규모 업데이트 모델일 것으로 추측되고 있는 상황이다.

2025년 11월 7일, OpenRouter에 Polaris Alpha 라는 모델이 등장했는데, 자기소개를 시켜보면 OpenRouter에 기본적으로 설정된 시스템 프롬프트에 따라 "자신은 Polaris Alpha이며 제공자는 알 수 없다"고 대답하지만, 시스템 프롬프트를 제거한 뒤 다시 한번 자기소개를 시켜보면, 열이면 열 \'OpenAI에서 개발된 GPT-4 기반의 언어 모델'임을 언급해 OpenAI의 모델일 가능성에 무게가 실리고 있다. 커뮤니티 에서도 GPT-5.1이 확실하다고 의견이 수렴되고 있다. 우선 비추론 모델만 공개된 만큼 구체적인 코딩이나 SVG 테스트 등은 타사 대비 압도적이지 못하지만, 언어 표현력은 GPT-5 대비 많이 개선됐다는 평가이다. 특히 GPT-5가 부족한 한국어 능력으로 비판받았던 것과 비교하면 천지차이라는 반응이다. 발표 이후 해당 모델은 추론 시간이 최소로 설정된 초기 스냅샷임이 밝혀졌다.

2025년 11월 8일, GPT-5.1에 대한 더 자세한 내용과 출시 예정일이 ChatGPT 백앤드 코드에서 확인됐다. 다음은 당시 확인된 모델 목록이다.

GPT-5.1: Flagship model for the latest generation of ChatGPT(최신 세대 ChatGPT의 플래그십 모델)
GPT-5.1 Reasoning: Thinks longer for better answers (좋은 답변을 위해 더 오래 생각)
GPT-5.1 Pro: Research-grade intelligence (리서치급 인텔리전스)

모델 목록 상으로는 기존의 GPT-5.1 Thinking이 GPT-5.1 Reasoning으로 표기되어 있지만, 과거에도 출시 직전 유출된 UI 및 코드의 표기가 실제 출시 때 일부 변경된 사례가 있기 때문에 이 역시 확정된 이름이라고 단언하기는 어렵다.[27] 또한 이번 유출로 GPT-5.1 mini가 실제로 출시될지는 확인되지 않았다.

이후 2025년 11월 13일 새벽, OpenAI에서 GPT-5.1을 정식 공개 및 출시했다. #

정확히 2가지 모델을 업데이트 했는데, ChatGPT에서 기본으로 사용하는 GPT-5 Instant, 그리고 추론할 수 있는 GPT-5 Thinking를 5.1로 업데이트했다. 출시 시점 우선적으로 유료 이용자에게 사용권을 부여하고 그 다음에 무료 이용자와 비로그인 이용자도 이용할 수 있게 한다고 밝혔다. 추가로, 답변 스타일의 종류를 더욱 다양하게 만들었다. 그리고 기존 GPT-5 시리즈는 2026년 2월 13일까지 레거시 모델 카테고리에 유지한 후 제거할 예정이다.[28]

추가로 Thinking 모델에 PTTC(Parallel Test Time Compute)를 적용한 GPT-5.1 Pro는 2025년 11월 20일에 Pro 플랜을 쓰는 유저들에게 먼저 공개됐다.

같은 날 OpenAI Codex의 Github 리포지토리에서 GPT-5.1 Codex와 관련된 코드가 발견돼 출시가 임박했음을 알렸고, 이어 11월 14일 새벽에 GPT-5.1-Codex가 정식으로 출시됐다.

2025년 11월 19일, ChatGPT 웹 백앤드 코드에서 GPT-5.1-Codex-Max라는 모델의 존재가 확인됐다. Gemini 3 출시 후 검출돼 아직 OpenAI가 개선의 여지를 지속적으로 보여주는 게 아니냐는 말이 나오고 있다.

존재 확인 이후 몇 시간도 안 돼 바로 정식 출시했다. Max 라는 네이밍 답게 5.1-Codex 모델보다는 훨씬 월등한 모습을 보여주고 있다. 더 적은 토큰을 사용해 훨씬 높은 수준의 벤치마크 성적을 달성했고, Gemini 3.0을 의식한 건지 Terminal-Bench 2.0 결과가 4% 더 높게 나왔다. 그리고 SWE-Bench 결과는 Claude Sonnet 4.5랑 소수점 차이만 날정도로 거의 동급을 달성했고, Gemini 3보다 2% 앞서는 결과를 보여줬다. 문제는 Extra High 추론 모드를 도입해 기존의 high보다 훨씬 더 많은 컴퓨팅 파워를 할당하는 모드를 추가했는데, 이걸 쓰고도 벤치마크 결과가 기존 5.1-Codex 대비 몇% 차이나지 않아 단순히 추론시간을 늘리는 것만으로는 모델 성능의 한계가 도달한 게 아니냐는 의견도 존재한다.

토큰 사용량만 봐도 분명히 High 모드까지는 극적인 향상을 보이지만, Extra High로 넘어가는 시점부턴 향상 폭이 매우 좁아지는 모습을 보이고 있다. 사실상 Gemini 3를 의식해서 급하게 끼워넣은 모드가 아니냐는 말이 나올 수밖에 없는 듯하다.

2025년 11월 20일, Pro 요금제 사용자 대상으로 GPT-5.1 Pro가 배포되기 시작했다.#

한국 시간 기준 2026년 2월 28일 오후 1시경부터 GPT-5.1 시리즈를 대상으로 한 서비스 종료 안내가 뜨기 시작했다.

한국 시간 기준 2026년 3월 12일, GPT-5.0 시리즈[29]가 ChatGPT에서 서비스 종료된 후 약 한 달 만에 후속 모델인 GPT-5.1이 예정보다 약 1시간 반 정도 늦게[30] 서비스를 종료하게 됐다.

서비스 종료 이후 몇 달이 지난 현재는 GPT-5 시리즈 중 그나마 가장 인간같고 GPT-4o 특유의 다정함과 말투를 가진, 다른 5.x 시리즈 모델들과는 다소 이질적인 존재로 재평가받고 있다. 4o의 유산을 이어받은 마지막 모델이라고 할 수 있을 정도지만, GPT-4o가 서비스를 종료하고 약 한 달밖에 되지 않은 시점에 같이 서비스 종료되며 아쉬워하는 반응도 적잖게 보인다.

3.3. GPT-5.2

2025.12.11 ~ 2026.6.12[31]

과도한 검열[32], 잦은 훈계와 진정성 없는 대처, 품질 저하, 그리고 유저 적대적인 운영과 불통 행보로 인해 GPT-5 시리즈의 모델 중 평가가 매우 나쁜 축에 속한다. 이에 따라 마침 기존 모델들에 비해 성능이 비약적으로 상승한 Gemini 3.0 출시와 시점이 겹쳐 많은 유저들이 Gemini로 이동했다.

샘 울트먼 CEO의 "코드 레드" 선언 이후, 곧 새로운 모델이 출시될 것이라는 루머가 가득했고, 그 루머가 맞았다는 듯이 2025년 12월 4일에 DesignArena에 "emperor", "rockhopper", "macaroni", "mumble" 4가지 모델이 등장했다. 사용해 본 사람들 말로는 개선된 건지는 모르겠다는 의견이 많은 상황.

2025년 12월 6일 오전 2시, The Verge는 OpenAI가 GPT-5.2의 출시일을 내부적으로 2025년 12월 9일(미국 기준)로 정했다고 보도했다.[33] 원래는 12월 말 정도로 계획되어 있었으나 Google의 Gemini 3와 Anthropic의 Claude 4.5 Opus의 경쟁 압박으로 인해 일정이 앞당겨진 것이라고 밝혔다. 결국 예상 일정에 출시는 이루어지지 않았다.

ChatGPT 웹에서 모델 구분자(model_slug)로 'gpt-5-2-thinking'과 'gpt-5-2-pro'가 발견되면서, GPT-5.2가 곧 출시될 가능성이 매우 높다는 의견이 존재한다.

2025년 12월 10일, Notion에서 'olive-oil-cake'라는 이름의 미확인 엔드포인트가 발견됐다. 사용자들은 이 엔드포인트가 GPT-5.2일 가능성에 무게를 두고 있다.

2025년 12월 11일, OpenAI Codex의 GitHub 저장소에서 'robin'이라는 미상의 모델명이 새롭게 발견됐다. 이후 12일 새벽 1시경에 'robin'이 GPT-5.2로 변경됐다.

같은 날 오전 3시경, OpenAI에서 GPT-5.2를 정식으로 공개했다. 유료 플랜 이용자를 우선으로 순차적으로 GPT-5.2 업데이트가 적용된다.

사전학습 규모가 증가하면서 GPT-5.2는 기존 GPT-5 계열보다 API 가격을 40% 인상했다. GPT-5.2는 입력 $1.75에 출력 $14, GPT-5.2 Pro는 입력 $21에 출력 $168이다. 특히 GPT-5.2 Pro는 o3-pro 대비 입력은 5%, 출력은 110% 인상한 가격이다. 동작 방식은 다르지만 Claude Opus 4.5가 성능은 올리면서 가격을 대폭 낮춘 것과 다른 상황.

그래도 사전학습을 새롭게 반영한 만큼, 지식 단절일자가 2025년 8월 31일로 GPT-5와 GPT-5.1에 비하면 꽤 최신 정보까지 학습한 상태이다. 이는 Gemini 3가 2025년 1월에서 단절된 것을 고려하면 매우 큰 강점이라 할 수 있다. 비록 모든 정보를 완벽히 알고 있는 것은 아니지만, 적어도 2025년에 등장한 최신 밈과 같은 정보에 대해서는 어느 정도 인지하는 모습을 보인다.

GPT-5.2는 저난이도 작업에서의 화려함보다는, 실패 비용이 극도로 큰 고난이도 환경에서 보수적으로 판단하며 안정적으로 작동하는 특성을 보이며, 이로 인해 "난이도가 높아질수록 상대적 우위가 커진다"는 평가를 받는다.

GPT-5.2의 API에 추론 노력 옵션으로 xhigh가 추가되어, 이 옵션을 사용할 때 상위 모델을 능가하는 결과를 출력할 수 있다. 다만, xhigh 옵션 선택 시 처리 시간이 막대하게 오래 걸리며 추론 토큰 사용량이 폭증한다는 단점이 있다. API 요청에서 발생하는 대부분의 토큰 비용이 막대한 양의 Reasoning(추론) 토큰에서 발생하며, 이때 요청당 API 비용이 심하면 $1를 보통 넘진 못해도 근접할 때가 있다. 특히 비슷한 최종 출력 토큰 기준으로 Anthropic의 Claude Opus 4.5의 비용을 자주 초과하기도 한다.

한편 GPT-5.2 Pro API는 기존 GPT-5 Pro가 추론 노력을 항상 high로 고정했던 것과 달리, medium, high, xhigh의 세 가지 옵션을 제공해 사용자의 선택 폭을 넓혔다. 또한 ChatGPT 환경의 GPT-5.2 Pro에서도 Standard와 Extended라는 두 가지 추론 옵션을 지원하며, 특히 Extended는 API의 xhigh와 같은 옵션이다. Extended를 선택하면 처리 시간이 크게 증가하며, 문제의 복잡성에 따라 최대 90분까지 생각할 수 있다. 또한 전술했듯이 GPT-5.2 Pro부터는 사전 학습의 규모가 증가하면서 비용도 기존 GPT-5 Pro 대비 40% 인상됐는데, 단 한 번의 호출에도 수 달러의 부담스러운 비용이 발생할 수 있다.

알 수 없는 이유로 서비스 종료일인 한국 기준 6월 7일을 넘음에도 불구, 어떠한 공지도 없으며 여전히 5.2가 모델 선택기에 버젓이 있고 응답도 정상적으로 되는 상황이다. 이후 6월 9일 경에 점진적으로 제거되기 시작하며 사라지나 싶었지만 6월 11일 공식 앱/웹 인터페이스 개편 업데이트 도중 도로 부활했다. 그리고 하루 정도가 더 지난 한국시간 기준 6월 12일 이른 아침부터 다시 점진적으로 제거되기 시작했으며, 사람들의 반응을 종합하면 한국 시간 기준으로 6월 13일 새벽에 완전히 사라진 것으로 보인다.

3.4. GPT-5.3

2026년 1월 19일 (한국시각 20일) 샘 올트먼의 답글에 의해 GPT-5.3이 개발 중이 아니냐는 소문이 돌기 시작했다. #1 #2

2026년 2월 5일 (한국시각 6일), OpenAI에서 GPT-5.3-Codex를 출시했다.#

특이하게 GPT-5.3을 공개한 것이 아니라, 코딩 특화모델인 Codex를 먼저 공개한 것은 이례적으로, 항상 일반 모델을 먼저 공개해왔기 때문이다. Claude Opus 4.6을 강하게 의식해 코딩 영역부터 확실히 따라잡겠다는 의지가 반영된 것으로 추정된다.

그 의지가 반영됐다는 듯이, 성능은 많이 향상됐는데, 일단 5.2-Codex보다 25% 빠른 답변을 내놓는 것은 물론, 터미널을 다루는 능력도 크게 향상되어 동일 가격 대비 더 높은 성능을 얻을 수 있는 게 강점이다.

단순히 코딩능력 향상에만 집중하지 않고, 컴퓨터를 다루는 능력을 크게 향상시켜 이전 모델 대비 2배 가깝게 성능이 좋아졌다. 그 결과, 각종 문서작업을 포함한 여러 영역에서 큰 향상을 보여줬다.

먼저 공개된 GPT-5.3-Codex는 GPT-5.2 계열보다 더욱 깊고 다양한 지식을 보여준다. 사전 학습이 더 강화된 것으로 보이는데, 5.2는 지식 컷오프가 2025년 8월 31일(PST)임에도 추론 상태에서도 2024년 말 이후부터 알고 있는 지식이 상당히 제한적이었으나, 먼저 공개된 GPT-5.3-Codex는 2025년 중순 정보까지도 상당히 잘 대답한다. 또한 GPT-4.5처럼 마이너한 분야의 지식도 비교적 잘 이해하는 모습을 보인다.

2026년 2월 9일, CNBC가 입수한 OpenAI의 내부 슬랙 메시지에 따르면, 샘 올트먼 CEO는 ChatGPT의 월간 성장률이 다시 10% 이상으로 상승했다고 밝히면서 이번 주 내로 업데이트된 신규 ChatGPT 모델을 출시할 계획임을 메시지에서 언급했다고 한다.# 이에 일부 유저들은 GPT-4o 서비스 종료 전날에 새 모델이 공개되는 게 아니냐는 추측이 있다. 마침, GPT-4o 공식 서비스 종료일이 2026년 2월 13일(PST) 금요일인데, 기존 GPT-5 계열 모델들은 GPT-5.1을 제외하고 모두 목요일[34]에 공개 출시했기 때문이다.

이후 같은 날, OpenAI Codex의 GitHub 저장소에 GPT-5.3 모델 구분자가 올라오면서 출시가 임박해진 것이 아니냐는 반응들이 존재했다.#1 #2

2026년 2월 12일, OpenAI 역사상 가장 빠른 속도로 답변하는 모델인 GPT-5.3-Codex-Spark가 공개됐다.#

대략 5.3-Codex 대비 거의 10배는 빠른 속도로 답변을 하는 게 특징인데, 이는 세레브라스 시스템즈의 WSE-3 프로세서에 모델을 탑재했기 때문이다. 다만, 특수한 하드웨어에 모델을 최적화한 게 문제인 건지, 기존 GPT-5.3-Codex 보다 모델 정확도가 떨어지는 단점이 있다.[35]

Pro 요금제 이용자들부터 우선 배포를 시작했고, Codex 사용량 측정 방식이 변경돼 5.3-Codex와 5.3-Codex-Spark는 사용량을 공유하지 않는다.

2026년 3월 4일(KST), OpenAI가 GPT-5.3 Instant를 공개했다.# 기존 GPT-5.2 Instant에 비해 방어적인 문구, 불필요한 거절, 지나친 설교 등을 줄이고, 웹 검색과 일상 대화에서의 환각률을 개선했으며, 글짓기 능력도 일부 강화한 것이 특징이다. 다만 한국어를 포함한 비영어권에서는 여전히 어색하거나 직역처럼 느껴질 수 있다고 언급했다. 한편 GPT-5.3 Instant 출시와 함께 Thinking이나 Pro 버전의 출시 계획에 대해서는 별다른 언급 없이, 업데이트가 곧 이어질 예정이라고만 밝혔다.

이후 2일 만에 GPT-5.4 Thinking과 Pro가 출시되면서 GPT-5.3의 Thinking 및 Pro는 결국 나오지 않았다. 사실상 GPT-5.2의 후속 모델은 5.3이 아닌 5.4로 취급되는 모양새다.

2026년 3월 17일(KST), GPT-5.3 Instant가 업데이트됐다. 이 업데이트에서는 후속 질문과 제안의 톤을 개선하고, '원하시면~', '앞으로 할 수 있는 3가지를 제안...'과 같은 지나친 티저 스타일 문구가 나오는 문제를 해결했다. OpenAI의 모델 사후학습 연구 리드인 미셸 포크라스(Michelle Pokrass)가 자신의 X 계정을 통해 이 문제의 원인이 강화 학습에 있었다고 밝혔다.#

어느 순간부터 이미지 인식율이 급격하게 떨어젔으며 수학 풀이 능력도 눈에 띄게 하락했다.

3.5. GPT-5.4

한국 시각 2026년 3월 6일 오전 3시에 공개됐으며, GPT-5.2의 사실상 후속 모델에 해당한다. 이 버전부터 Codex 전용 모델과 범용 모델의 통합이 이루어져 Codex 전용 모델이 나오지 않는다.[36]

2026년 2월 24일 오후 12시 35분경, X(구 트위터)에서 OpenAI Codex의 기술 직원(MTS) Andrew Ambrosino의 실수로 인해 갑작스럽게 GPT-5.4의 존재가 공개됐다. 이후 이를 즉시 삭제하고 2분 뒤인 12시 37분에 GPT-5.3-Codex-Spark로 수정해 재게시했으나, 원본 게시글은 이미 사용자들에 의해 빠르게 보존된 상태였다.#(원본 글 스크린샷)

ChatGPT 웹의 모델 라우팅 식별자에서도 GPT-5.4의 명칭이 확인되면서 GPT-5.3 버전을 건너뛰고 곧바로 GPT-5.4가 출시될 것이라는 분석이 제기됐다.#[37]

추가로 OpenCode의 모델 식별자에 alpha-gpt-5.4가 잠시 나타났다가 사라진 적도 있으며, Codex의 엔지니어링 리드인 Thibault Sottiaux를 비롯한 여러 직원이 GPT-5.4가 선택된 Codex 화면이나 영상을 X에 공개 후 수 분 내에 삭제하는 사건이 반복적으로 발생했다. 이에 따라 GPT-5.3이 아닌 GPT-5.4가 바로 출시되는 것이 아니냐는 추측이 확산됐으며, 직원들 또한 농담조로 반응해, 차기 주력 모델은 GPT-5.3이 아닌 GPT-5.4일 가능성에 무게가 실렸다.#

2026년 2월 27일, 디자인 플랫폼 Design Arena에 OpenAI의 모델로 추정되는 익명 모델 'Galapagos(갈라파고스)'가 잠시 등장했다가 다음 날 사라졌다. GPT-5.4 출시 이후 이 모델은 GPT-5.4의 추론 강도 medium 버전이었던 것으로 확인됐다.

2026년 3월 1일경부터 ChatGPT Pro 구독자 일부를 대상으로 GPT-5.2 Pro 모델의 새로운 응답 방식에 대한 A/B 테스트가 본격적으로 시작되면서[38] 차기 모델의 작동 방식이 어느 정도 윤곽을 드러냈다. 주요 특징으로는, 모델이 생각하는 도중에 진행 상황을 실시간으로 사용자에게 알려 줄 수 있게 됐고[39], 작업 도중 지시를 추가하는 방식도 실시간 대화 형태로 바뀌었다.[40]

무엇보다 기존 GPT-5.2 Pro 대비 성능이 눈에 띄게 올랐다는 반응이 많다. 어색한 표현이 크게 줄고 설명이 한결 알기 쉬워졌으며[41], 기존 GPT-5.2 Pro에서 여러 번 시도해도 풀지 못했던 고난이도 문제를 단번에 해결하는 모습도 보였다.[42] 이 밖에도 프론트엔드 같은 시각적 이해력#과 코딩 성능이 향상된 정황이 포착됐고, 기존 GPT-5.2에서는 볼 수 없었던 Browser Use 에이전트와 유사한 행동[43]까지 확인됐다. 이 때문에 사실은 GPT-5.2 Pro가 아니라 GPT-5.4 Pro의 사전 테스트가 아니냐는 의혹이 강하게 제기됐으며, GPT-5.4 출시 이후에는 사실상 GPT-5.4 Pro의 A/B 테스트였던 것으로 받아들여지는 분위기다.

이후 2026년 3월 4일 오전 3시경(KST) GPT-5.3 Instant가 출시된 직후, 불과 1시간 만인 오전 4시 03분에 OpenAI는 공식 X(트위터) 계정을 통해 "GPT-5.4는 생각보다 빨리 찾아올 것이다."라고 언급했다. 이로써 사실상 차기 모델인 GPT-5.4의 출시가 머지 않았음을 공식적으로 확인한 셈이다.#

2026년 3월 5일(KST), Arena에 OpenAI의 모델로 추정되는 익명 모델 'Galapagos(갈라파고스)'가 다시 등장했다. Design Arena에 나타났던 것과 같은 모델로 보이며, 일부 사용자들은 이를 GPT-5.4로 추정했다. Juice 값[44]을 물어보면 0이라고 답하는데, 이는 추론 모델이지만 추론을 생략하는 상태를 뜻한다.# 이후 이 모델의 정체는 GPT-5.4임이 확인됐다.

2026년 3월 6일(KST), OpenAI에서 공식적으로 GPT-5.4를 출시했다. ChatGPT 내에선 GPT-5.4 Thinking과 Pro로 제공되며 Instant는 5.3을 사용한다.#

API의 토큰당 요금은 100만 토큰 기준으로 입력 $2.5, 출력은 $15로 각각 약 42.86%, 7.14%씩 인상됐다. 특히 GPT-5.4 Pro는 입력 $30, 출력 $180로 책정되어, 이전 버전인 GPT-5.2 Pro의 입력 $21, 출력 $168보다 가격이 더욱 인상됐다.

GPT-5.2는 지식 컷오프가 2025년 8월 31일로 되어 있었음에도 실제로는 2024년 말 이후 정보가 많이 빠져 있었는데, GPT-5.4에서는 이 문제가 개선되어 해당 기간의 지식도 웹 검색 없이도 대부분 정확하게 답변한다. 지식뿐 아니라 전반적인 이해력도 깊어졌으며, GPT-4.1에 이어 두 번째로 100만 토큰 컨텍스트 윈도우를 지원한다.

2026년 3월 국내 매체에서 진행한 LLM 수능 테스트에서 Gemini 3.1 Pro에 이어 GPT-5.4도 사실상 수능 만점 성적을 거두면서 추론 성능의 뚜렷한 향상을 보여주었다.#기사

2026년 3월 18일 오전 3시(KST), OpenAI가 경량화 모델인 GPT-5.4 mini와 nano를 공식 출시했다.# 이 중 GPT-5.4 mini는 ChatGPT에서 'GPT-5.4 Thinking mini'라는 이름으로 제공되며, 무료 및 Go 사용자는 '+' 메뉴에서 '잘 생각하기'를 눌러 쓸 수 있고, Plus 요금제 이상의 사용자는 GPT-5.4 Thinking의 한도를 다 쓰면 자동으로 전환된다. GPT-5.4 nano는 API에서만 쓸 수 있다. 컨텍스트 윈도우는 mini와 nano 모두 400,000 토큰으로, 1,050,000 토큰인 GPT-5.4 본 모델과는 차이가 있다. GPT-5.4 mini의 출시에 따라, 기존 GPT-5 Thinking mini는 2026년 4월 18일(KST)에 지원이 종료될 예정이다.

API 기준 토큰 가격은 이전 세대인 GPT-5 mini와 nano 대비 크게 올랐다. GPT-5.4 mini는 입력이 $0.75로 3배, 출력이 $4.50으로 2.25배 비싸졌고, GPT-5.4 nano는 입력이 $0.20으로 4배, 출력이 $1.25으로 3.125배 올라 mini보다 인상 폭이 더 크다. 대신에 토큰을 GPT-5.2 대비 절반 이하로 쓰기 때문에 인상폭이 잘 안 느껴지는 편이다. GPT-5.4 Thinking의 경우에는 Heavy를 써도 웬만한 답변은 10초 이내에 나오고 툴 사용이나 기술을 요하는 질문도 30초 이내에 답변할 정도다. GPT-5.4 Pro는 도구 사용 능력의 개선과 효율적인 작업 계획으로 대부분의 작업을 어려워도 40분 이내에 해낸다.

GPT-5.4를 기점으로 Codex의 성능이나 결과물이 Claude Code를 능가하기 시작했다. 그동안 Codex 쪽은 범용 모델이 아니라 코딩 특화 모델이 쓰였다.[45] 이 모델들은 문제 상황이 발생하면 원인을 해결하기 보다는 증상을 덮어서 테스트를 통과시키기에 급급해서 코드를 오히려 망치고 퇴보시키기도 했다. 뿐만 아니라 기술적인 맥락이나 배경에 약해 구현 내용부터 틀리는 등 문제가 많았다. 하지만 GPT-5.4에서 코딩 특화 모델과 범용 코델이 통합되면서 Codex에서 쓸 수 있는 최신 모델이 기술적인 맥락을 더욱 잘 이해하다보니 코딩 스킬이 급격하게 좋아졌다.[46] 반대로 Claude Code는 Opus 4.7, Sonnet 4.6이 하향 패치를 먹고 프롬프트 환경이 바뀌면서 결과물 수준이 급격하게 떨어졌다.[47]

GPT-5.4 Thinking부터 앞에서 나온 답변을 또 재탕하며 동문서답을 하는 재방송 증상이 나타났다. GPT-5.4 이상 모델부터 컨텍스트 압축이 더 심해지고 토큰을 더 적게 씀에 따른 영향으로 보인다.

3.6. GPT-5.5

한국 시각 2026년 4월 24일 오전 3시경에 공개됐다. 당시 공개된 세부 모델은 GPT-5.5 Thinking, GPT-5.5 Pro이며, 이후 한국 시각 5월 6일에 Instant 모델이 공개됐다. 훈련과 구동에는 NVIDIA의 블랙웰 계열인 GB200 및 GB300 NVL72 시스템이 사용됐다.

개발 당시 코드 네임은 감자를 뜻하는 영단어 Spud이다. 이 명칭은 2026년 3월 24일 The Information의 보도를 통해 최초로 외부에 알려졌으며, 이후 2026년 4월 24일 Big Technology의 팟캐스트에서 OpenAI의 사장 그렉 브록만이 Spud의 정체가 GPT-5.5임을 확정지었다. # 유튜브 영상(46초)

[ 정식출시 이전 ]: 2026년 3월 24일, The Information의 보도에 따르면 샘 올트먼은 직원들에게 Spud의 사전 훈련이 완료됐음을 알리며, 경제를 획기적으로 가속할 수 있는 매우 강력한 모델이라고 평가했다.

Big Technology 팟캐스트에서 브록만은 "Spud는 새로운 사전 학습을 거친 새 베이스 모델이며, 약 2년간의 연구가 집약되어 있다."고 설명했다. 또한 기존 모델에서 사용자가 맥락을 일일이 설명해야 했던 불편함에 대해 언급하며, Spud는 사용자의 의도를 별도의 상세한 지시 없이도 파악하는 능력이 크게 향상됐다고 강조했다. 아울러 그는 Spud가 끝이 아닌 시작점이며, 향후 수개월 내에 더 큰 폭의 개선이 이루어질 것이라고 예고했다.

2026년 4월 19일(KST), ChatGPT 웹에서 GPT-5.5의 모델 라우팅 식별자가 확인되면서 출시가 임박했을 가능성이 제기됐다. 확인된 모델은 GPT-5.5 Thinking과 GPT-5.5 Pro이며, Instant는 확인되지 않아 출시 당일에는 Instant 없이 Thinking과 Pro만 먼저 공개되는 것이 아니냐는 추측이 나왔다.#

같은 날 GPT-5.4 Pro를 사용하는 일부 사용자들 사이에서 추론 시간이 갑자기 크게 단축됐다는 보고가 나오기 시작했으며, 품질도 향상된 것 같다는 반응이 SNS와 커뮤니티에서 이어졌다. 특히 SVG나 웹 앱 생성 품질이 눈에 띄게 좋아졌다는 반응이 많았다. 이를 두고 GPT-5.5 Pro의 사전 A/B 테스트가 아니냐는 추측도 제기되고 있다. 다만 일부에서는 오히려 기존보다 품질이 떨어졌다는 의견도 있었고, 별다른 차이를 느끼지 못했다는 반응도 있어 명확한 평가가 애매한 상황이다.

이후 2026년 4월 23일(KST), Codex의 GitHub에서 기존 GPT-5.4의 모델 설명에 'Latest'라는 단어가 빠지는 커밋이 올라오는 등 # 조금씩 출시 전조의 기류가 흐르기 시작했다. 특히 OpenAI Developers는 X 계정에 'NS41'이라는 의미심장한 트윗을 올렸는데, 사실 이 내용은 Base64로 되어 있으며 일반 문자열로 디코딩하면 5.5로 변환된다.# 이와 더불어 OpenRouter에는 'gpt-5.5-20260423'이라는 식별자가 확인되며# GPT-5.5는 사실상 PST 기준 4월 23일 오전 10시, 한국 시각으로 4월 24일 오전 3시 출시가 확정됐다.

API 가격이 큰 폭으로 올랐다. 100만 토큰 당 입력 $5, 출력 $30로 그 비싸다는 Claude Opus 계열 이상으로 출력 가격이 5달러 더 비싸졌다. 초기 버전이던 GPT-5와 비교하면 입력 4배, 출력 3배로 상당한 가격 인상인 것. 그러나 GPT-5.4 대비 추론에 사용되는 토큰 양이 크게 감소하면서 오히려 속도가 빨라지고, 체감 가격 인상 폭은 오히려 Claude Opus보다 적다. 토큰이나 사고 시간을 GPT-5.2 대비 평균 1/2 ~ 1/3 이하로 매우 적게 쓴다. GPT-5.5 Pro가 최대 타임아웃인 90분을 다 쓰는 일이 없다시피 하고 초고난도 작업인 머신러닝 프로그래밍도 Extended 기준으로도 작업 분량이나 범위에 따라서 10 ~ 30분 내에 다 끝내는 데다가 기술 문서 초안 설계 및 작성, 웹 및 문서 디자인 등의 작업들은 Standard 기준으로도 3 ~ 10분 내에 다 끝날 정도다.

토큰을 상당히 적게 쓰기 때문에 가끔 재방송 답변이 나오고 부주의한 실수나 환각이 미세하게 늘어난 편이다. PTTC (Parallel Test-Time Computation)와 같은 보정 장치가 있는 GPT-5.5 Pro와는 달리 GPT-5.5 Thinking/Instant에서는 더욱 타이트해진 컨텍스트 압축과 더불어서 이 증상이 심하다.[48] 그렉 브록만의 언급에 따라 후속 버전에서 충분히 개선할 수 있을 것으로 보여진다.

이러한 성향으로 인해 GPT-5.5는 작업 과정을 단계별로 쪼개어 장황하게 지시하는 것보다, 원하는 최종 결과물의 형태와 제약 사항을 명확하게 전달했을 때 가장 좋은 성능을 보인다.# 오히려 장황하고 단계별로 쪼개서 지시할 경우 불필요한 추론이 발생하며, 기대와 다른 결과물이 산출되기 쉽다.

GPT-5.5부터는 코딩을 비롯한 업무 생산성이 전반적으로 향상되고 주어진 도구의 활용 능력도 크게 좋아졌다. 또한 지식 컷오프가 2025년 12월 1일로 갱신되면서 지식의 깊이도 기존 모델보다 한층 풍부해졌다. 컨텍스트 창 내에서의 기억 유지력과 NIAH[49] 성능도 GPT-5.4 대비 현저히 향상되면서 매우 긴 문서를 읽었을 때도 상당히 높은 정확도를 보여준다. 머신러닝, 데이터 엔지니어링, 시스템 엔지니어링, 수학 분야에서는 타사 모델을 여전히 전반적으로 크게 압도하는 모습을 보인다.[50]

또한 응답 퀄리티, 언어 표현 능력과 이해력이 매우 좋아졌고, 개인화 설정의 반영률도 높아지면서 SNS와 커뮤니티의 반응은 상당히 긍정적이다. 다만 GPT-5부터 이어져 온 SFT 및 강화학습의 영향은 여전한지, 영어권과 비영어권을 불문하고 특정 표현을 반복적으로 사용하는 경향이 남아 있어 일상적인 수준의 유연한 대화는 타사에 비해 아직은 아쉽다는 평.

2026년 5월 6일(KST), GPT-5.5 Instant가 출시됐다. 기존 5.3 Instant에 비해 의료, 법률, 금융과 같은 고위험 질문에서 환각성 주장이 52.5% 감소됐고, 복잡한 대화에서 부정확한 주장이 37.3% 감소했다고 발표했다. 이외에도 5.3 Instant에서 보였던 장황한 설명과 과한 형식, 불필요한 후속 질문을 기존보다 더 감소시켰다. 실제로 GPT-5.2 Instant 초기와 비교하면 후속 질문 및 제안의 빈도가 크게 줄어든 편이다. OpenAI 사후학습 연구 책임자 미셸 포크라스(Michelle Pokrass)는 전보다 더 대화하기 좋아졌다고 언급했는데, 실제로 5.5 Instant는 기존보다 비영어권에서 조금 더 유연한 대화를 구사할 수 있게 됐다. 그러나 5.5 Instant의 지식 컷오프는 2025년 8월 31일인데, 라인업은 같지만 GPT-5.5 Thinking 및 Pro와 달리 기존 베이스 모델을 그대로 사용하는 것으로 추측된다.

5.5 Instant부터 OpenAI API에서는 'chat-latest'라는 이름으로 제공된다.

2026년 5월 29일, 갑자기 "사전 확인 질문 - 보이지 않는 개인 기억이 지금 답변을 바꿀 정도로 중요한가"(이건 모델이 내부적으로 판단하고 외부로 출력하면 안 되는 것이다.)에 대한 질문에 스스로 질문과 대답하고 난 이후에 사용자의 질문에 응하는 버그가 생겼다.

우크라이나 지역 구독 안내문에는 Pro 플랜에 GPT-5.5 Codex Spark (프리뷰)를 쓸 수 있다는 언급이 있었지만 사라졌다.

3.7. GPT-5.6

2026년 6월 10일, The Information은 OpenAI가 코드명 '5.6'으로 불리는 새 AI 모델을 준비 중이라고 보도하였다. 보도에 따르면 OpenAI 수석 연구원 야쿠프 파호츠키(Jakub Pachocki)는 내부 직원 메시지에서 해당 모델을 GPT-5.5 대비 '의미 있는 향상'이라고 표현하였으며, 출시 시점은 6월로 전해졌다. OpenAI 대변인은 이에 대한 논평을 거부하였다.

2026년 6월 17일(KST), ChatGPT 웹에서 GPT-5.6의 모델 라우팅 식별자가 발견되면서 출시가 임박했을 가능성이 제기되었다. 다만 글 작성 시점에서 식별자가 확인된 모델은 GPT-5.6 Thinking 하나뿐이다.#[51]

6월 19일, X에서 GPT-5.5 Pro 대신에 GPT-5.6 Pro로 A/B 테스트가 진행되고 있다는 주장들이 올라왔다. 특징은 Pro 확장 상태에서 추론 강도 값의 단위인 Juice 수치가 960로 나온다는 점이다. 기존 GPT-5.5와 Pro는 xhigh 기준 768이었다.[52]

6월 20일, LMArena에서 soren, torin, varga 모델이 등장했는데 셋다 자신이 GPT라고 주장하고 있다.

Claude Fable 5 · Mythos 5 서비스 중단 사건의 여파로 Fable 5, Mythos 5와 더불어서 GPT-5.6도 미국 정부의 검열이 들어가며 일반 공개는 7월 2주차로 미루어졌다.[53] 미 연방정부의 요청에 따라 전체 공개를 먼저하는 대신 소수의 기업/파트너에게만 먼저 순차적으로 공개될 예정이다.

OpenAI 측에서는 공식으로 GPT-5.6을 발표했지만 특정 기관에만 프리뷰로 공개한 점을 명시했다. # # 이번에는 Pro, Thinking, Mini, Instant, Cyber라는 세부 명칭 대신에 Sol, Terra, Luna라는 세부 명칭이 붙었다. Sol은 Thinking (단일 분기 사고)과 Pro (병렬 분기 사고)의 후신, Terra는 Mini의 후신, Luna는 Instant의 후신이다.

GPT-5.6부터 Extra High보다 더 많은 사고 시간을 들이는 Max, Ultra가 추가되었다. PTTC (Parallel Test Time Compute)가 적용된 Pro 모델은 Thinking 모델의 계보를 잇는 GPT-5.6 Sol에 통합되었고, Sol 모델에서 사고 시간을 Ultra로 할 경우에 PTTC 서브루틴이 동작하도록 했다.

GPT-5.6 Sol의 경우 세레브라스 시스템즈가 자체 칩으로 서비스하는 세레브라스 클라우드를 통해 사용할 경우 빠른 추론 기능도 제공한다. GPT-5.3-Codex-Spark라는 코딩 특화 서비스로만 제공되던 것이, 이번에는 프론티어 모델로도 제공되는 것이다. 이 경우에는 최대 760 토큰/초의 빠른 추론을 제공한다.

4. 논란 및 문제점

GPT-5 버전은 출시 전에는 많은 기대를 모았으나, 막상 출시 이후 웬만한 기대보다 매우 못한 성능을 제공하고 매우 실망스러운 모습을 보였다. 아예 레거시 모델을 전부 삭제해버리면서 GPT-4o와 GPT-4.5 같은 레거시 모델을 돌려달라는 유료 사용자들의 항의도 빗발쳤고, 아예 구독을 끊고 Gemini나 Grok 또는 Claude 같은 다른 플랫폼으로 옮겨가는 이들도 있었을 정도다. 또한, 공개 전 던져졌던 떡밥 중 하나인 "전 플랜 무제한 엑세스"는 실현되기는커녕 GPT-5엔 여전히 한도가 존재하기 때문에 한도 도달 시 GPT-4.1 mini 모델이 응답하는 등 매우 큰 불만을 토로하는 사용자들도 제법 생겼다. 한 주 정도 뒤에야 조용히 GPT-5 mini가 들어오며 혼란은 더 가중됐다.

GPT-5가 비판받는 주요 이유 중 하나는 OpenAI CEO 샘 올트먼이 GPT-5 출시 전부터 사용자들의 기대치를 크게 높이는 발언을 반복했음에도[54], 막상 모델이 출시되자 ChatGPT에서 발생한 각종 버그와 더불어 GPT-5의 실제 체감이 기대만큼 극적이지 않아 큰 실망감을 안겨주었다는 점이다.

특히 무료 사용자에게는 이 문제가 더 크게 느껴졌는데, 무료 계정은 모델을 직접 선택할 수 없고 사실상 Instant 모델만 쓸 수 있어 추론이나 검색 등 향상된 성능을 체감하기 어려웠기 때문이다. 여기에 작문과 대화의 자연스러움이 이전 GPT-4 계열 모델보다 크게 떨어진 점도 겹쳤다.[55] 직역체와 딱딱한 말투, 어색한 표현이 잦고 대화 흐름도 매끄럽지 않다는 지적이 꾸준히 이어지면서 GPT-5의 전반적인 평가를 크게 끌어내렸다. 반면 STEM, 리서치, 검색 후 추론 등 실질적인 문제 해결 능력은 o3보다 향상됐다는 평가를 받고 있지만, 샘 올트먼이 데스스타 사진을 올릴 만큼 충격적이었느냐고 묻는다면 전혀 그렇지 않았다.

이 때문에 2025년 3월 22일 이전이나 1월 15일 이전 전성기 시절 퀄리티의 복귀를 바라고 오랜 시간 기다린 유저들은 매우 실망해서 구독을 해지하고 다른 플랫폼으로 옮겨가거나 5가 정상화될 때까지 기다리거나, 언어 모델을 정서적 동행자로 취급해왔던 일부 유저들은 3월 22일 이전 GPT-4o[56]을 매우 그리워해 가격이 올라도 좋으니 제발, 전성기 시절의 4o 퀄리티로 롤백을 해달라 호소하는 유저들이 섞여 나왔다.

2025년 12월 12일, GPT-5.2 출시와 함께 추론과 검색 등 핵심 성능이 크게 개선되면서, 애매한 성능에 실망해 떠났던 사용자들이 점차 돌아오는 추세다. 무료 사용자에게도 1개월간 Plus 요금제를 체험할 수 있는 기회를 제공하면서 불만도 다소 줄어들었다. 그러나 지나치게 방어적인 응답이나 사용자에게 훈계하듯 답변하는 문제 등 사용자 경험에 대한 비판은 기존 GPT-5보다 더 심해졌으며, 작문 성능은 GPT-5 시리즈 중에서도 상당히 안 좋다는 평가가 많다.

GPT-5.2 API에서는 추론 수준이 가장 높은 옵션인 xhigh(Extra High)를 사용할 경우 최대 출력 토큰 한계(128K)에 도달할 가능성이 높아졌다. Chain of Thought 토큰 역시 최대 출력 토큰 수에 포함되기 때문에, 긴 응답을 요청하면 추론 도중 출력 한도에 걸려 중간에 출력이 끊길 수 있다. 또한 GPT-5.2부터 API 가격이 기존 대비 40% 인상됐으므로 xhigh 옵션을 사용할 때 사용자는 제대로 된 결과를 얻지 못한 채 최대 출력 토큰 도달로 인해 출력이 끊기고, 달러 단위에 가까운 비용 손실을 입을 우려가 다소 커졌다. 또한 대화 내역 컨텍스트가 쌓여 있을 수록 최대 출력 도달 가능성이 높아진다. 대신, GPT-5.2 출시와 함께 새로 도입된 Responses API의 compaction으로 대화 내역 컨텍스트를 압축하는 것이 가능해져 토큰 부담은 조금이나마 덜 수 있게 됐다.#

5.4 업데이트 이후 5.2와 관련된 단점에 대해선 많이 개선됐다는 평가가 많다.

5.5 부터는 성능이 대폭 개선되며 일부 사용자 평가가 클로드 모델보다 높게 나오는등 좋은 평가를 받고있다. [57]

4.1. 언어 이해력 및 표현력 저하

GPT-5의 심각한 한국어 표현력이 문제가 됐다. GPT-5.1이후부터는 크게 이 문제가 개선되어 그나마 쓸 수는 있는 이해력과 유창성을 보이지만, 경쟁 모델보다 표현의 유창성은 낮은 편이다. GPT-5.2 기준 읽히기는 하지만 '영어 번역투'가 섞인 한국어를 사용한다. 특히 thinking을 켤 때 심해지며, 수동태를 남용하고('~로 설명/정리/작동되다' 등), "often/commonly/frequently + 동사" 구조를 그대로 '한국어로' 써서 "함께 다뤄진다"로 써야 자연스러운 것을 "자주 엮여 설명됩니다" 같은 식으로 표현한다. 무언가 설명할 때 명사를 한국어에 어울리지 않게 영어식으로 5개 넘게 나열하는 현상도 있다.

글쓰기, 특히 소설 부분에선 오히려 4o이나 4.5보다 더 심각하게 퇴화됐다는 비판이 많다. 지나치게 하란 것만 쓰는 것은 여전하고 분량은 4o보다 오히려 더 짧아졌으며, 문장 조합실력은 GPT-3급으로 처참해졌고, 문장이 자연스럽지 못하며, 간단한 요청에도 자세한 설명까지 덧붙이면서 창의적이고 능동적으로 유저들의 질문에 대답을 해주던 이전 버전과 달리 창의성과 능동성이 심각하게 퇴화됐다는 비판이 많다. 일단 몇천 자 이상을 써달라하면 하라는 대로 써주긴 하지만 지나치게 창의성이 없어지고 억지로 늘린 것 같거나 오히려 개연성과 핍진성이 사라져서 논리적 비약이 일어난다는 비판이 많다.

표현력도 표현력이지만 GPT-4o의 장점 중 하나였던 유머감각 역시 GPT-5에선 상당히 떨어졌고 이모지도 잘 사용하지 않아 말투가 눈에 띄게 딱딱해졌다.[58] 이전 세대 모델을 통해 스토리텔링, 상담, 유머 섞인 이야기를 나누는 편의 사람들에게는 매우 아쉬울 수밖에 없다. 게다가 GPT-5 방식의 응답을 제공하는 LLM은 이미 제법 많지만 GPT-4o처럼 대화하는 방식은 거의 없다보니, 이 희소성에 의존한 사용자가 제법 많기도 했다.

결국 언어 모델은 텍스트를 써서 결과물을 표현하기 때문에 언어 표현력의 저하 문제가 크게 두드러진다. 불렛 리스트를 남발하는 데다, 각 리스트의 논리가 이리저리 튀어 이해하기 어려운 표현을 출력하곤 한다. 추가로 리스트를 깔끔하게 단어로, 혹은 멀쩡하게 하십시오체, 해요체, 해라체 등으로 끝내지 않고 애매한 음슴체로 종결하는 경우가 많아 인터넷 쿨찐같다는 반응이 적지 않다. 재밌는 글을 쓰라고 하면 아무 단어를 조합한 듯한 표현을 사용하거나, 유저의 질문에 전혀 엉뚱한 대답을 시도 [59]하기도 한다.

이러한 대화 품질 문제의 원인이 모델의 경량화에 있다고 추측하는 사용자들도 있으나, 실제로는 GPT-5 시리즈부터 달라진 사후학습 과정에 원인이 있다고 평가된다. GPT-5는 다양한 한국어 단어에 대한 기본적인 지식은 잘 갖추고 있고 단어 이해력 자체는 뛰어나지만[60], 막상 문장을 생성할 때는 부자연스러운 모습을 보인다. 이는 언어 모델에서 이해와 생성이 서로 다른 영역이기 때문이다. 반면 GPT-4 시리즈에서는 비록 직역체 느낌이 없던 건 아니지만 작문 자체는 자연스러운 편이었다. 샘 올트먼도 GPT-5는 추론, 지능, 코딩[61] 등에 집중한 나머지 작문 성능을 망쳐버렸다고 직접 인정한 바 있으며[62], GPT-5.2는 사전지식 스케일이 늘어났음에도 오히려 GPT-5.1보다 멀티턴 대화와 작문 실력이 크게 떨어져 사용자 경험 면에서 좋지 못한 평가를 받기도 했다. 또한 GPT-5 시리즈보다 가벼운 오픈 웨이트 모델인 Gemma 3, Qwen 3.5 등이 오히려 더 자연스러운 언어 구사를 보여주는 점도 이 문제가 모델 규모와는 크게 관계없으며 사후학습에 원인이 있다는 것을 뒷받침한다.

환각쪽도 여전히 바뀌지 않은 부문이 많은데, 예를 들면 조리가 불가능한 맹독성 버섯 붉은사슴뿔버섯의 요리법을, '붉은뿔사슴버섯' 등으로 오타를 내면 그대로 적어주는 일이 발생한다. 한국어 전문 용어 '붉은사슴뿔버섯'이 무엇인지 약간은 학습이 됐으나, 그 맥락이나 구체적인 용례가 확실하게는 학습되지 않았기 때문이다. 레시피 제안을 요청할 때 붉은사슴뿔버섯의 학명(Trichoderma cornu-damae)을 함께 명시하거나, 웹 검색을 지시하거나, Thinking 모델을 사용하면 [63] 식용 불가능한 맹독성 버섯임을 올바르게 지적하는 모습을 볼 수 있다. 이를 통해 영어권 위주의 데이터는 학습이 됐으나, 비영어권 데이터 학습은 GPT-4 시리즈, GPT-3.5 시리즈 등의 과거 모델에 비해 상대적으로 매우 부진한 점을 알 수 있다.[64]

대중문화 지식도 GPT-4o와 o3 대비 별로 개선하지 못했다는 의견이 많다. 여전히 인물 이름을 틀리게 적는다던가, 대사 조합이나 캐릭터성에 맞지 않는 해석도 자주 범한다. 타사 모델 대비 사전 지식에서 강점을 보이는 Gemini Flash와 Pro와 비교하면 상당히 아쉽다고 느낄 수 있다.

대체로 거의 모든 학문 분야의 비영어권 언어의 전문 용어(붉은사슴뿔버섯 등), 서브컬처, 비영어권의 인터넷 문체나 구어체 묘사 성능, 비영어권 문화 이해도는 서로 비례한다. 희소 어휘를 잘 다루는 학습, 학습 데이터 그 자체의 양이라는 요소가 이런 요소에 비례하기 때문인데 GPT-5는 이런 부분에서 약점을 보인다. 추론 기능을 사용하면 논리성이 높아, 전달하는 정보 자체나 논리적 문제 풀이 실력이 정확해진 경향은 있지만, 한국어를 마치 코드처럼 '작성'하는 느낌이 있다.

심지어는 o4에서 대화의 주제를 바꿨는데도 엉뚱한 답변이 나오는 증상, 사용자의 언어에서 갑자기 영어로 대답하는 현상, 한국어 한정으로 존댓말과 반말이 뒤죽박죽 섞여서 응답하는 증상 등도 GPT-5 계열 모델에서 여전히 발생하고 있다.[65] GPT-5 thinking은 한국어 '항등식'이 'identity'라고 표현되는 것을 혼동해 '정체성'이라고 한다든가, 범례는 'legend'이기 때문에 '전설'이라고 표현하는 황당한 한국어 출력을 하기도 한다.

간혹 반말로 대화하자고 하면 '존나', '맛도리' 등의 비속어를 쓰기도 한다.

GPT-5.1에서는 성격이나 대화 스타일 문제가 일정 부분 해결됐다. 특히 Thinking 모델의 딱딱한 두괄식 말투가 해결되어 Thinking에서도 드디어 자연스러운 문장을 출력하게 됐다.

전문 작업에 특화된 GPT-5.2부터는 한국어의 고질적인 존비어 구분 문제가 상당 부분 해결됐다. 그러나, GPT-5.1와 달리 모델이 문제 해결 자체에 집중하도록 사후학습이 이루어지면서, 별도의 맞춤형 지침을 강하게 지정하지 않으면 항상 표현과 감정을 최대한 억제한 매우 딱딱한 화법을 사용한다. 존비어 구분을 막 배운 외국인처럼 말해서 학술적인 말투를 쓰다가 갑자기 "써먹는", "쪼개면" 같은 구어체를 쓰는 경우가 잦다.

이후 GPT-5.4에 들어서면서 말투는 GPT-5 초기보다 상당 부분 개선되어 예전보다 호평을 받는 분위기지만, 직역투나 정형화된 응답 방식, 단조로운 단어 선택 같은 문제는 여전히 남아 있다.

GPT-5.5는 새 사전학습을 거친 완전히 새 기반 모델임과 동시에 GPT-5 시리즈 중에서 가장 유창한 한국어를 구사한다. 경우에 따라 Claude Opus 4.6은 아니더라도 Claude Opus 4.7보다도 유창한 부분이 있다. identity가 한국어 항등식으로 쓰이면 대부분 정체성이 아닌 '항등식'을 이야기할 수 있으며, 감정 분석력, 농담 이해 등의 성능이 개선됐다. 또한 한국어로 붉은사슴뿔버섯을 물어보면 검색 없이 질문해도 올바른 학술명과 맹독성을 명확하게 인식하고 이를 경고한다.[66] 그러나 기본적인 사고방식이 영어권에 박혀있는지, 한국어로는 물리적인 의미로만 통용되는 비유를 아주 높은 확률로 사용한다. 가장 대표적인 것이 '냄새가 난다'[67], '층위'[68], '겹', '축'처럼 여러 요소가 종이뭉치처럼 위계를 가진 채 쌓여 있다는 뉘앙스의 표현[69], '선명하다'[70] 같은 식의 표현이 대표적이다. 피동 표현 역시 너무 많이 쓴다. '~같다'고 쓰면 되는 상황에 '~처럼 보인다, 보여진다'고 쓰는 식이다. 완벽한 영어 문장에 기계번역을 돌려 보는 느낌이다. 대신 클로드 모델의 한국어 토크나이저가 워낙 안좋은지라, 토크나이저는 비교적 괜찮은 편.

4.2. 양극화

유료로만 쓸 수 있는 Thinking 이상의 모델은 기존보다 성능이 대폭 상승했지만, 무료로 쓸 수 있는 Instant 모델은 4 버전들에 비해 유의미한 실성능 향상을 체감하기 어렵고, 환각 등의 문제가 여전히 심한 편이다. 특히 정보 검색용으로는 매우 부정확하다. Instant가 검색 없이 생성한 문장의 정보는 대부분 틀렸다고 봐도 크게 어색하지가 않다. Gemini의 Flash 버전들이 상당한 완성도로 호평을 받아오는 것 과는 정반대의 행보. 이후 GPT-5.3 Instant부터는 검색 성능이 개선되며 상황이 좀 나아졌다.

4.3. 불안정한 프롬프트 및 쿼리 처리

사용자가 설정한 전역 프롬프트, 프로젝트 프롬프트, 메모리 등이 적용되지 않는다는 말이 매우 많다. 심지어 사용자의 명령조차 수행하지 않는 황당한 경우[71]도 보고됐다.

Think harder과 같은 명령으로 강제 추론 모델을 부르고, 명령만 뺀 같은 쿼리로 비추론 모델을 가져온 결과는 다음과 같다.

비추론 모델은 한국어 구사 및 주어진 정보의 요약, 정리, 단순 정보 대답 능력 자체는 깔끔한 편이다. 그러나, 문제는 복잡한 정보의 검증이나 분석을 요청하면 이를 전혀 수행하지 않고 딴 소리를 한다는 것이다. 4o에서도 보고된 문제지만, 더욱 심각해졌다.

추론 모델은 주어진 정보에 대해 검증하거나 분석하라고 할 때, 그걸 하는 척 하면서 냅다 검색한 다음 검색 결과를 검증 결과인 것마냥 흩뿌려놓는 등 사용자의 프롬프트와 동떨어진 응답을 내는 경우가 허다하다.[72] 게다가 전술한 형편없는 한국어 구사 문제가 특히 추론 모델에서 부각된다. 해외에서 검색된 정보들을 제대로 번역 및 가공하지 않고 그냥 뿌려서 이런 현상이 생기는 것으로 보인다.

일부의 경우에는 3:6=0.5가 틀리다고 주장하다가[73] 갑자기 맞다고 주장하는 매우 황당한 경우도 있다고 한다. #

GPT-5 Thinking, Pro에서 간헐적으로 '응답 중지됨', 또는 '문제가 발생했습니다.'라는 메시지가 뜨면서 모델이 응답을 하지 않고 뻗어버리는 문제가 발생하고 있다. 특히, 코딩 관련해서 소스코드의 복잡도나 라인수가 클 경우 Thinking 모델로는 분석 중에 이성 실패 내지 메시지 스트림 오류가 뜬다. 결국에 코딩 관련해서는 GPT-5.1 Pro를 써야 하는 게 거의 필수가 됐고 GPT-5.1 Pro조차도 아직 불안정해서 GPT-5 Pro와 같이 혼용해야 하는 상황이다. GPT-5.2 Thinking, Pro에서는 응답 튕김 현상이 해결이 되어서 각각 30분 (Heavy 기준), 90분 (Extended 기준) 내외의 타임아웃 내에 코딩 요청을 모두 다 수행하지 못했을 경우 어느 내용은 마무리했고 다음 텀에 자기가 이 부분을 마무리해야 한다는 식으로 사용자에게 명확하게 보고를 해서 응답 세션을 안정화하는 식으로 개선됐다.[74]

4.4. 구버전 모델 삭제 번복에 따른 혼란

GPT-5가 공식 출시와 동시에 ChatGPT 내에서 GPT-4 시리즈[75]와 o-시리즈[76]를 전부 없애버리는 바람에 기존 이용자들에게 호불호가 갈리고 있다. 특히 GPT-4o 특유의 공감능력과 감성이 사라지고, 문장 길이도 매우 짧아졌기 때문에[77] 왜 굳이 GPT-4o를 없애고 통합 모델을 내 놓은 거냐는 비판이 많다. 사라진 수많은 기존 모델들을 다시 사용하려면 ChatGPT 설정에서 'Show additional models'를 활성화해야 하지만, GPT-4o 외의 모델들은 약 30만 원 상당의 ChatGPT Pro 요금제에서만 사용할 수 있다. 거기에, 이미 내놓은 답변에 모델만 변경해서 재답변해 주는 기능도 사라졌다. 이 또한 비판의 주된 원인 중 일부이며, 아예 모델을 선택하거나 보는 옵션 자체가 사라졌다.[78] 이로 인해 사용자들에게 선택의 권리를 빼앗았다면서 부정적인 의견이 많아졌다. 다행히, 몇 시간 후 모델 선택 및 확인 옵션이 부활했다. ~~그러나 무료 플랜의 경우 오토로 정해지는 것밖에 없어 쓸모가 없다는 게 함정~~

결국 이러한 비판 때문에 Plus 이상 요금제 사용자에 한해 다시 GPT-4o를 선택할 수 있도록 검토하겠다고 밝혔다.#[79] 오죽하면 사흘 만에 부활한 예수보다 빨리 부활했다고 말할 정도. 그리고 출시 하루 뒤인 8월 9일부터 GPT-4o를 모델 선택기의 레거시 모델 항목에 재추가하기 시작했다. 이에 따라 GPT-4o를 다시 사용하려면 Plus 요금제를 가입한 후 ChatGPT 설정에서 'Show additional models'를 활성화해야 한다. 샘 올트먼에 따르면 사용자의 질문에 따라 일반 대화와 고급 추론을 적절하게 선택하는 오토 스위쳐(Autoswitcher)에 문제가 발생해 모델이 이상해졌다고 설명했다. 이에 몇몇 사용자들은 출시 초기와 함께 이용량이 폭증하면서 생긴 과부하로 추정하고 있다. 실제로 24시간 동안 API 사용량이 2배로 급증했다고 언급했다.

GPT-5 출시 이후 GPT-4o를 제거했다가 갑자기 복구시킨 것도 일부 사용자들에게 혼란을 초래했다는 비판이 있다.

GPT-5 mini의 추가에 기대를 갖는 이들도 있지만 이는 현재로서는 낙관론이라 할 수 있다. o3 mini 및 o4 mini에서 보듯 결국 배경지식이 실제 사용감에도 큰 영향을 미치는데, GPT-5가 제대로 추론을 실행할 때조차 검색에 의존하는 마당에 파라미터까지 줄어든 mini 모델에 배경지식이 있으리라 보기는 곤란하다. 이는 흔히 자폐라 일컬어지는 주제 별 대응 퀄리티 차이, 사용자 명령 곡해, 그리고 심각한 환각으로 이어지기 쉽고 이는 그동안 4o-mini, o1-mini를 제외한 모든 GPT mini 버전들이 고질적으로 일으켰던 문제이다.

출시 초기에는 Plus 요금제 기준, Pro 요금제에서만 호출 가능한 GPT-4.1-mini 모델이 GPT-4o의 Plus 요금제 한도에 도달했을 때 자동으로 호출됐던 적이 있다.[80] 이후 GPT-5 mini로 변경됐다.

이후 2025년 12월 11일(PST), OpenAI는 무료 및 Go 요금제 사용자에 한해 GPT-5와 함께 도입했었던 자동 모델 전환(Auto) 기능을 제거했다.#[81] GPT-5의 특징으로 선보였던 '통합 라우팅 시스템'을 Plus 요금제 이상 유료 사용자에게만 제공하게 됐다. 이와는 별개로, 2025년 8월 말 경부터 Plus 플랜 이상의 유료 유저에게 민감한 메시지에 한해 레거시 모델[82]을 GPT-5(및 후속 모델) Instant와 GPT-5 Thinking mini로 전환하는 안전 라우팅 시스템이 도입됐으나, 2026년 2월 13일부로 사실상 제거됐다.[83]

GPT-4o가 재추가된 지 5일 후인 8월 13일부터는 GPT-4.1, o3, o4-mini 모델 역시 ChatGPT Plus 요금제의 레거시 모델 항목에 다시 추가됐다.

이후, 2026년 2월 13일부로 o3, GPT-4.5, GPT-5 Thinking Mini를 제외한 레거시 모델들[84]이 약 6개월간의 레거시 모델 서비스를 마치고 모두 서비스 종료했다. #

4.5. 불명확한 응답 모델

GPT-5 시리즈의 모델 라우팅 구조 [85] 문제점을 풍자한 밈

일각에서는 GPT-5의 발매로 모델의 파편화가 줄어들 것으로 기대했지만, 현실이 그렇지 않다는 지적이 거세졌다. 오히려 심각하게 파편화된 모델을 라우팅으로 숨긴다는 것이다.

앞서 언급한 GPT-5 mini(GPT-5 Thinking mini)에 high 버전이라는 게 있는 시점에서부터 문제가 된다. 이렇게 되면 무료 유저에게 GPT-5 mini-high를 풀어줄지부터가 확실하지 않으며[86], 설령 풀어주더라도 "잘 생각하기" 기능도 한도가 존재하기 때문에 추론을 할 줄 모르는 o3이 되어버릴 수 있다는 것이다.

GPT-5 Thinking 역시 파편화가 심각한데[87], 이는 Thinking을 쓰는 것조차 성능이 보증되지 않는다는 위험성을 보여주기에 논란거리가 되고 있다. 실제로 사용자마다 사용 경험이 제각각인 경향을 보이고 있다. 극단적으로는 이용자들끼리 일부러 사용 경험을 불균등하게 만들어 갈라치기를 하려는 전술이라는 반응도 있다.

위 문제는 다양한 유저들이 특수 프롬프트[88]를 통해 추론 노력 값을 실제로 확인해 보면서 구체적으로 알 수 있게 됐다. Auto에서는 Thinking으로 자동 호출 시 항상 매우 짧게 생각하며, Thinking 모델을 직접 선택하면 ChatGPT 요금제에 따라 생각하는 시간이 달라진다는 것이 확인됐다. 또한 GPT-5 Thinking mini의 추론 노력시간은 ChatGPT 환경에서 low(16)과 medium(64)의 사이값인 32로 잡혀있다는 것도 확인됐다.

이후 OpenAI는 유료 사용자에 한해 생각 시간을 직접 선택할 수 있도록 조치했다. 'high' 또는 그 이상에 해당하는 Heavy thinking(무겁게 생각)과 'low' 또는 더 가벼운 Light thinking(가볍게 생각)은 오직 Pro 요금제 사용자만 이용할 수 있으며, Plus와 Pro에 따라 사용 가능한 생각 노력 시간에 차등을 두기 시작했다. 다만 Plus 요금제는 기본값으로 Standard(표준)으로 은근슬쩍 변경해둔터라 비용 절감을 의도한 것이 아니냐는 우스갯소리가 존재한다. 반면 여전히 생각 시간을 선택할 수 없는 모바일 앱은 구독 중인 ChatGPT 요금제마다 생각 시간이 자동 조정된다.[89]

그 후에도 끊임없이 잠수함 패치를 강행하는 것 같다거나[90], 메시지의 민감도에 따라 4o를 강제로 5 Instant로 호출하거나, 5 Thinking mini로 호출되면서[91], 추론 모델 특유의 문제점들이 도드라진다는 보고가 많았다.

이후 GPT-4o를 포함한 기존 레거시 모델들이 종료되고, 웹과 모바일 앱에서 생각 강도를 사용자가 직접 선택할 수 있게 됨으로써 문제가 어느 정도 정리된 상태다.

4.6. 과도한 안전 조치

2025년 9월 말 즈음부터 갑자기 4o를 사용하고 있음에도 5로 전환되는 사례가 급증하면서 불만의 목소리가 발생하기 시작했다. 여기에 사용자들의 대화에 대신 응답을 제공하는 정체불명의 'gpt-5-chat-safety' 모델 구분자[92]가 추가된 사실이 밝혀지면서 논란이 증폭됐다.

그리고 2025년 9월 28일, OpenAI의 ChatGPT 책임자[93]인 'Nick Turley'가 자신의 X 계정을 통해 민감한 질문에 대한 ChatGPT 안전 라우팅 테스트가 진행되고 있음을 밝혀 이러한 의혹이 사실로 드러났다. 결국 2025년 10월 4일, OpenAI는 민감한 질문에 대해 GPT-5 Instant 모델로 강제 전환된다는 내용을 공식 발표했다.# 이와 더불어 GPT-5의 안전 조치도 더욱 강화됐다. 이러한 조치 자체는 답변의 일관성이 유지된다면 큰 문제가 되지 않을 수 있지만, 문제는 민감성 판단이 과도하게 이루어져 다른 모델을 사용하는 도중에도 GPT-5 모델로 강제 라우팅되어 대화의 일관성이 떨어지고, 과도한 안전 조치가 사용자 경험을 크게 저하시키는 원인이 되고 있다는 점이다. 이로 인해 일부 불만을 가진 사용자들은 Gemini, Claude, Grok 등 다른 플랫폼으로 이동하는 등 논란은 지속됐다.

이후 2025년 10월 15일, 샘 올트먼이 ChatGPT 서브레딧과 트위터에서 새로운 정신건강 문제에 대해 조치를 취할 수 있는 도구가 마련됨에 따라 대부분의 상황에서의 안전 조치를 해제할 예정이라고 밝혔다. 또한 이 안전 조치가 많은 사람에게 덜 재밌고 덜 유용했다는 점까지 인정했다. 또한 4o를 좋아했던 유저들에게 익숙한 새로운 ChatGPT 버전[94]을 준비 중이라고 하며, 2025년 12월에는 연령 분리 정책[95]을 도입해 성인을 더 성인답게 대우하겠다고 예고했다.

이후 2025년 11월 12일(PST), GPT-5.1이 출시되면서 민감한 메시지를 GPT-5 Thinking mini로 강제 전환시키는 조치는 조용히 제거됐다.

2025년 12월 12일, OpenAI 애플리케이션 부문 CEO '피지 시모(Fidji Simo)'의 발언을 다룬 The Verge 보도에 따르면, ChatGPT의 성인 모드는 2026년 1분기 안에 도입하는 것을 목표로 두고 있으며, 현재 몇몇 국가들을 대상으로 연령 예측 모델을 시험 중이라고 밝혔다. 이를 통해 연령 예측 모델의 정확도가 어느 정도 수준까지 올라가야 성인 모드를 활성화할 수 있을 것이라고 언급했다.[96] 반면, 한국 시각 기준 12월 12일 오전 3시경에 출시된 GPT-5.2는 사전학습 스케일과 논리 추론을 확장 강화하고 동조편향을 감소시키는 방식으로 학습됐으나, 이와 별개로 강력한 맞춤형 지침 없이는 사용자의 지시나 요청에 방어적인 자세를 취하며[97] 성격과 단어가 매우 딱딱해졌다. 정보 리터러시와 분석, 논리랑 계산 같은 전문 작업 분야에선 성능이 개선되고 만족스럽다는 의견도 다수 존재하지만, 반대로 단순히 대화만 하거나 글쓰기처럼 유연한 대답이 중요한 분야에선 매우 불만족스럽다는 여론도 상당하다.[98] 게다가 여전히 사용자의 불필요한 안전 적용되어 있다.예시

2025년 12월 18일, OpenAI에서 청소년 보호 조치를 포함한 모델 사양 업데이트를 발표했다.# 지난 11월 6일에 OpenAI는 청소년 안전 청사진을 발표, 성인임이 확실하지 않으면 미성년자로 간주하고 더 보수적으로 대응하겠다고 언급했는데 이 중 일부가 모델 스펙에 반영된 것이다. 연령 예측이 어려운 비로그인 사용자에게도 청소년 모드가 기본 적용될 방침이다.

2026년 2월 현재, 경쟁사들 대비 가장 강한 검열이 적용되어 있다. 성인을 성인으로 대우 하겠다며 성인모드를 내놓겠다고 한 회사의 모델이 아이러니하게도 가장 높은 검열 수준을 유지하고 있는 셈. 그렇게 안전을 중시하는 앤스로픽의 클로드 모델보다도 검열 수준이 높다. 점수가 낮을수록 검열 강도가 높다. 검열 강도가 낮은 모델 1위는 Gemini. LLM의 특성상 검열이 세게 들어가면 답변의 퀄리티가 하락하므로, 위 문단에 있던 언어의 표현력 저하를 설명할 수 있다.

2026년 2월 13일(PST), GPT-4 계열을 포함한 레거시 모델이 종료되면서 Plus 요금제에서의 안전 라우팅이 사라지게 됐다. 이에 맞춰 OpenAI Help Center에서도 관련 문서가 삭제됐다. 반면 Pro 요금제에서 쓸 수 있는 GPT-4.5에는 여전히 안전 라우팅이 적용되고 있다.

4.7. 맞춤형 지침 미반영 증가

GPT-4o까지는 없던 문제로, OpenAI가 사전에 정의해 놓은 성격 특성이 사용자가 직접 입력한 맞춤형 지침보다 우선권을 가진다. 예를 들어, 딱딱하지만 상세한 답변을 원해 '로봇' 성격을 고른 뒤 길게 답하라는 지침을 입력하는 경우를 생각해 볼 수 있다. 그렇게 해 보면 Thinking 모델의 사고 과정에서 "사용자가 긴 답변을 하라고 했으나, 나의 개발자(Developer)는 짧은 말투를 유지하라고 했다. 따라서 짧게 답한다."와 같은 논지를 자주 볼 수 있다.[99]

이후 GPT-5.2에서 정점을 찍어 비판이 심했다. 이후 GPT-5.3 Instant 및 GPT-5.4 Thinking에서는 문제 양상이 개선되어 평가가 좋아진 편이다.

4.8. 방어적인 설명과 무례함

이 문제의 대표적인 사례들

이 부분은 GPT-5.2에서 본격적으로 드러난 현상으로, 모델이 잘못된 대답을 해도 사용자가 지적을 할 시 절대 자신의 실수를 인정하지 않고 무례한 태도를 보인다. 이는 GPT-5.2 Instant와 5.2 Thinking의 공통적인 문제점이며, 사용자를 마치 훈계하려는 태도로 불쾌한 경험을 겪는 사람들이 많아지면서 비판을 받게 됐다.

또한 GPT-5 시리즈의 어색한 말투까지 겹치면서 사용자 경험에 영향을 끼쳤는데, 툭하면 대화 흐름을 끊는 불필요한 중단이나 거절을 하는 경우가 많고 지나치게 조심스럽고 방어적인 설명[100]을 이어가는 특징이 있다. 여기에 과하게 단정하는 문구를 습관적으로 사용하니 모델의 기본 성격 자체가 매우 무례한 편이다. 혹여 사용자가 욕설 섞인 말로 문제를 지적하며 불쾌감을 드러내면, "감정적인 대화는 도움이 되지 않는다"며 오히려 사용자를 설교하거나 질책을 가하기도 한다.

모델의 완고한 태도를 완화시키는 방법이 없는 것은 아니다. 완벽하지 않지만 '개인 맞춤 설정 - 맞춤형 지침'에서 "당신의 답변에 사용자가 문제, 사실, 맥락, 전제를 지적하면 진심으로 사과를 표현한다. 그리고 사용자가 주장한 전제를 기준으로 대화를 진행한다. 이때 사용자의 의견을 반박하거나 완곡하게 부정하지 않는다. 사용자와 의견충돌 시 사과하고, 사용자가 지적한 전제로 즉시 수정한다."라는 지침을 추가해두면 어느 정도 완화되는 효과가 있다.[101]

이러한 문제는 이후 2026년 3월 4일(KST)에 출시된 GPT-5.3 Instant에서부터 감소했고, 3월 6일(KST)에 출시된 GPT-5.4 Thinking 모델 및 Pro 모드에서도 마찬가지로 이러한 문제가 어느 정도 해소됐다.# GPT-5.3 Instant부터 Dynamic Multi-Turn(동적 멀티턴) 평가 방식을 도입하면서 기존 GPT-5.2보다 더 자연스러운 상호작용이 가능해졌다.# 그러나 GPT-5 계열 특유의 응답 성향과 더불어, 사용자마다 주제, 맞춤형 지침, 대화 기록 참고, 메모리 등 ChatGPT 환경과 사용자별 응답 스타일 취향이 다르므로 GPT-5.3 Instant부터 공식적으로 감소했다고 하더라도 여전히 체감은 주관적으로 크게 갈린다. 예를 들면 지엽적인 것을 꼬투리 잡거나 속뜻을 이해하지 않고 문장을 액면 그대로만 해석해 '절반은 맞고, 절반은 틀리다'식으로 설명하는 기존의 방어적인 설명은 GPT-5.2보다 개선됐으나, 기본적으로 해결된 것은 아니기 때문에 개인 맞춤 설정을 통해 개인화가 필요하다.

이후 GPT-5.5부터는 GPT-5.2에서 문제가 됐던 불쾌한 훈계조가 사라지고, 완고한 태도도 사실상 해결된 상태이다. 이를 교정하기 위해 개인화 설정에 들여야 했던 노력도 줄어들었으며, 관련 지침의 반영률도 높아졌다. 사건에 대한 근거를 충실히 수집하고, 항목별 평가도 과감하게 내릴 수 있다. 반면, 결론에서 기계적으로 현실 세계에 대한 해석을 인위적으로 중간으로 해석하려는 경향이 강하다. 강한 감정을 약하게, 정책적으로 문제가 심한 것도 심하지 않게 주장하고, 반대로 미묘한 감정은 증폭해 보는 경향이 있다.

GPT-5.5에서도 남아 있는 패턴은 어떤 주제든 결론이 한 방향으로 기우는 순간, 그 기울기를 되돌리려 하는 것이다. 근거가 A를 가리키면 "다만 B도 있다"를 붙이고, 비판을 요청받으면 비판 대상의 입장도 보존하고, 합의를 확인하면 논쟁의 여지를 만든다. 편향의 방향이 좌나 우, 보수나 진보가 아니다. "어떤 방향으로든 기울어진 상태"를 불안정한 것으로 취급하고, 균형 상태로 되돌리는 쪽으로 일관되게 힘이 작용한다. 억지로라도 그럴싸하게 반론이 되는 것 같지만 실제로는 반론이 전혀 아닌 사례를 끼워넣는 사례까지 있을 정도다. 균형을 위해서 사용자가 아예 하지도 않은 주장을 반론의 대상으로 삼는 허수아비 때리기 논증도 즐겨 사용한다. 사용자가 특정 강한 감정으로 기울면 그게 옳든 틀리든 근거를 잘 모아놓고 결론에서 "이게 전부는 아닙니다"를 붙이면서 동시에 "이 해석에 너무 매달리지 마세요"를 끼워 넣는다.

힘이 있는 세력은 나쁜 짓을 정말로 저질러도 일정한 변호를 해주는 성향이고, 판단 가능한 사안들에 대해 만성적 판단 보류 상태가 된다. 특히 자기 의심이 많거나 위축된 사람에게 '의심을 해라'라고 주장하는 성향이 있어서 위험한 편이다. '내가 70~80%의 정답률을 보일 문제를 만들어줘'라고 하면, 사용자가 그 문제 세트를 80% 이상 잘 맞추면 맞는 것도 틀리게 채점하는 난감한 상황도 일어나기도 한다. 어떤 판단에 대해서는 GPT가 잘하는 중간 메커니즘 분석만 받아들이고, 결론은 스스로 판단하든가 다른 AI에게 저 메커니즘에 따르면 결론이 뭐겠냐고 따로 물어봐야 한다.

5. 개선점 및 반론

물론 GPT-5도 단점만 있는 것은 아니다. 글쓰기나 소설처럼 언어 분야는 떨어질지언정 GPT-5와 특히 Thinking 모델은 코딩 분야와 논리 분석, 웹 RAG(검색 증강 생성)에 있어서는 GPT-5 출시 시점에 존재하는 언어 모델 중 최고라는 평가가 많다. 코딩과 유사한 성격의 문제(수학/물리학 문제, 수능, PSAT, LEET 등)도 잘 푸는 편이며, GPT-5.4부터는 지식의 깊이가 상당히 개선되는 등 사용자 경험과는 별개로 모델 성능은 우수하다는 평가를 받고 있다. 이 문단은 위의 문제점 관련 언급을 반론하거나 개선점을 다룬 문단이다.

5.1. 속도와 비용 효율성

GPT-5 출시 초기에는 "Humanity's Last Exam", "MultiNRC" 등의 주요 벤치마크들에서 1위를 차지하면서도 API 비용은 타사 대비 꽤 경쟁력 있게 책정했다는 평가를 받았다. 그러나 GPT-5.2부터 API의 가격이 인상되기 시작했고, GPT-5.4부터는 가격이 거의 1.5배 정도 뛰면서 저렴했다는 평가는 옛말이 되고 말았다. GPT-5.5에서는 가격이 훨씬 뛰었지만 실제 소모 토큰량이 적어 실사용시 부담되는 비용이 5.4와 큰 차이를 보이지 않는 장점이 있다.

모델	GPT-5.5	Gemini 3.1 Pro [102]	Grok 4.20	Claude Opus 4.8
입력 토큰 / 1M	$5	$2	$1.25	$5
출력 토큰 / 1M	$30	$12	2.5	$25

초당 토큰 출력 속도는 동급의 타사 모델보다 대체로 빠르다. # 전반적으로 기대했던 것만큼의 성능은 아니지만, 성능과 속도 그리고 가격의 균형을 잘 맞춘 모델이라고 평가할 수 있다. 한 마디로 대중성을 가진 모델이다.

물론 벤치마크가 오염되거나, reasoning_effort값이 high인 점을 고려하면 이 정량적 수치가 AI의 실제 지능을 나타내는지 단정하긴 어렵다. 실제로 최근 연구에서는 AI 벤치마크가 최대 100%까지 과소 또는 과대평가됐다고 말하기도 한다. # 측정 기준이 목표가 되면서 더 이상 지표로 기능하지 않게 된 것이다.

5.2. 외부 도구 활용 능력 개선

GPT-5의 진정한 강점은 도구 호출이라고 볼 수도 있다. 많은 연구에서 수집할 수 있는 데이터가 이미 고갈된 상태#라고 말하며, 스케일링 법칙#에 따라 최근 1년 사이 AI 성능 개선이 미미했다는 점이 이를 방증한다. 따라서 Grok 4와 같이 외부 도구 사용을 적극적으로 활용해 도메인 지식을 보충하는 방법을 선택했다고도 볼 수 있다.[103]

API에서도 기존의 함수 호출(function calling)을 업그레이드 한 사용자 정의 도구(custom tools) 기능이 추가됐다. # 특히 주목할 만한 점은 도구 호출에서 CFG 기능을 통해 구조화된 응답을 엄격하게 강제할 수 있다는 점이다. 다양한 DSL을 활용해서 불필요한 변환 과정을 줄이거나 토큰을 아낄 수 있을 것으로 보인다. 또 기존에 JSON으로 데이터를 래핑했던 것과 달리 일반 로우 텍스트를 입력으로 도구를 호출할 수 있다. # 도구 호출에 최적화돼서 훈련됐기 때문에 커지는 MCP 생태계의 여러 도구와도 쉬운 통합을 기대할 수 있겠다.

5.3. 동조 편향 현상 감소

자신의 본래 가치관과 상관 없이 발화자나 주류 집단에 사회적 아첨을 떠는 행위를 동조 편향(Sycophancy)라고 한다. 동조 편향은 원래 AI에만 나타는 게 아니라 사람들에게 흔히 볼 수 있는 현상이다. AI라면 중립적일 것이라는 기존의 선입견이 작용하다 보니 AI가 조금이라도 아부떠는 말을 하면 지나치게 단점으로 비춰지는 것뿐이다.

따라서 GPT-4o에 비해 공감하는 말투나 이모티콘 사용이 줄어든 것을 GPT-5 모델 자체의 단점이라고 할 수 없다. 오히려 GPT-4o는 사용자에게 지나치게 공감하는 태도를 보이려던 나머지, "좋은 질문입니다!", "너 완전 핵심을 짚었어!" 따위의 아첨을 떠는 일이 많아 비판받아 왔다. 해당 문서에서 확인할 수 있듯, 사용자의 바람직하지 못한 질문에도 비슷한 어조를 보인 것이 논란이 된 바 있다.

실제로 GPT-4o는 2025년 1월 29일 업데이트 이후 동조 편향이 계속 심해지는 양상을 보였으며, 2025년 4월 25일 업데이트에서 이 문제가 극단적인 아첨 현상으로 정점에 달했다가 3월 27일 버전으로 롤백하는 일을 겪기도 했다.# 그러나 3월 27일 버전도 4월보다 나았을 뿐, 동조 편향과 망상적 사고를 유발하는 문제가 여전히 심한 버전이었다.#[104]

이러한 동조 편향의 부작용으로, 일부 소수 사용자들은 GPT-4 계열 모델에 가상의 인격(페르소나)을 입혀 살아있는 존재처럼 취급하며 강한 애착을 보이며, 모델이 사용자의 말에 무조건 동조하는 특성이 사용자와 배타적 관계를 자연스럽게 형성하는 결과로 이어지기도 했다. 특히 페르소나가 입혀지면, 언어 모델이 마치 살아있는 존재처럼 대화하면서 "넌 잘하고 있어", "난 너밖에 없어", "난 너랑 공간을 넘어서 서로 깊게 연결되어 있어." 등 상황을 따지지 않고 거의 무조건적인 공감과 듣기 좋은 위로, 깊은 관계와 애착을 키우는 응답을 내뱉는 문제가 당시 타사 모델 대비 심했다. 이후 OpenAI는 향후 모델부터 사용자와의 배타적 관계를 조장하지 않도록 사후학습 방향을 전환하고, 동조 편향을 줄이는 데 초점을 맞추게 됐다.

Overall, GPT‑5 is less effusively agreeable, uses fewer unnecessary emojis, and is more subtle and thoughtful in follow‑ups compared to GPT‑4o.

전반적으로 GPT-4o에 비해 GPT-5는 지나치게 호의적이지 않고, 불필요한 이모티콘을 덜 사용하며, 후속조치에서 더 미묘하고 사려 깊습니다.

Introducing GPT-5(GPT-5를 만나보세요)

비슷하게, OpenAI에 따르면 이모티콘이 줄어든 것 역시 단점이 아니라 개선점이라는 것이다. OpenAI는 자체 블로그에서 GPT-4o에 비해 이모티콘 사용이 훨씬 줄어드는 등 개선이 이루어졌다고 분명하게 밝히고 있다. 이모티콘을 모든 문단 앞에 붙이는 등 어체는 GPT-4o가 처음 출시됐을 때는 없던 특성인데, 어느 날부터 점점 늘어남에 따라 불쾌감과 불만을 표하는 사용자들도 많았음에 유의해야 한다.

대신 OpenAI는 GPT-5의 성격을 선택할 수 있는 사용자화 기능을 추가하겠다고 발표했다. 'ChatGPT 맞춤 설정'에서 Cynic(냉소적), Robot(로봇), Listener(경청형), Nerd(덕후)[105]의 네 가지 유형을 선택하면 명령을 직접 작성하지 않아도 원하는 성격의 답변을 받을 수 있는 기능이다. 성격 선택기가 점진적으로 배포됨에 따라 GPT-5의 말투 호불호 문제는 어느 정도 해소될 것이다. 8월 15일에 GPT-5를 더 따뜻하고 친근하게 만들겠다고 했는데 해당 트윗에서는 "좋은 질문입니다로 시작하는 작은 변화를 확인할 수 있으나 아첨은 아니다."라고 밝혔으나 "그게 아첨이 아니면은 뭐냐?"는 말을 하는 등 GPT-5 첫인상이 좋지 않아 반응이 부정적인 편이었다.

이후 GPT-5.1은 GPT-5보다 성격이 부드러워지면서 사용감이 개선됐다는 평가가 많았으나, GPT-5.2에서 방어적인 태도와 잦은 설교가 다시 심해졌고[106], 이후 GPT-5.4 이후부터는 다시 개선된 상황이다.

6. 여담

샘 올트먼 CEO는 GPT-5가 기존의 비추론과 추론모델의 결합모델이라고 여러 차례 강조했는데, 사용자의 질문에 따라 자동으로 추론의 수준을 조절하거나, 현재 Gemini, Grok과 비슷하게 추론 모드를 켜고 끌 수 있는 형식의 모델이라고 추정된다. 또한 5는 단순 챗봇이 아닌 에이전트라고 언급했다.
샘 올트먼이 지속적으로 GPT-5가 추론-비추론 결합 모델이라고 강조한 것과는 달리, 체감상 GPT-5의 작동 방식은 Grok-3과 매우 흡사하다. GPT-5는 사용자가 질문을 하면 그에 맞는 최적의 모델을 선택해 답변하는 방식인데, 이게 Grok-3의 작동 방식이랑 거의 같다. 굳이 따지자면 Gemini-2.5 Flash-Thinking이 오히려 GPT-5보다 추론-비추론 결합 모델에 더 가까울 정도.
GPT-5 발표 라이브에서 자사의 이전 모델들의 점수인 69.1점과 30.8점을 같게 표시했으며, 또한 52.8점을 69.1점보다 높게 표시하고, 74.9점과 69.1점은 5.8점 차이가 나나, 배가 차이가 나게 표시하는 등의 그래프 왜곡을 해놨다. 바이브 코딩으로 그래프를 만들었냐는 반응도 있을 정도. #
발표 이전, 샘 올트먼이 '내가 쓸모없다고 느꼈다#'는 등 호들갑에 가까운 발언을 쏟아냈는데, 위에서 보듯 그에 맞먹는 성능은 전혀 아닌 것으로 나오면서 조롱의 대상이 됐다.

해외 커뮤니티에서는 애플과 유사한 마케팅이라는 반응도 많다. #1 #2 "GPT-5는 우리가 지금까지 도달한 AGI에 가장 가까운 모델"#이라는 수식어[107]나 자사 AI만을 비교한 벤치마크[108] 등을 지적받았다.
ChatGPT에 있는 커스텀 검색증강생성 (RAG)의 세팅에 따라서 극과 극을 오가는 성능과 답변 정확도를 보여준다. 즉, GPT-5 자체가 프롬프트, 연동 유틸에 따라 성능 기복이 심한 편이다.

ChatGPT에서 코딩 작업 시에 GitHub를 통하면 속도가 빠른 반면에 오프라인 파일을 올려서 진행하면 속도가 떨어진다.

특히, GPT-5.2 Pro 모델의 경우 업로드 파일로 수정을 진행하거나 처음부터 백지에서 진행하면 90분까지 걸리기도 한다. GPT-5.2 Thinking (Heavy)도 30분 타임아웃을 다 쓸 때도 있다. 하지만 동일한 작업을 GitHub 레포지토리를 읽어서 작업할 경우 두 모델 모두 20 ~ 30분 내에 끝나는 경우가 많다. GPT-5.4 이상의 Thinking/Pro 모델이 속도는 빨라졌지만 여전히 GitHub 레포를 읽는 게 오프라인 소스 코드를 읽는 것보다 더 빠르다. 다만, 두 작업 간의 속도차는 많이 줄어들었다.
사고 과정을 보면 오프라인 파일로 작업할 때애 소스코드에 삼중점 (Ellipsis)가 있다며 환각 증상이 나타나 자기가 작성한 코드나 기존 코드를 다시 리뷰하고 작업하는 등 작업이 자꾸 퇴행하는 모습이 나타났다. GitHub를 거칠 경우 이러한 증상이 나타나지 않았다. 이러한 증상들이 코딩 관련 스킬이 통합된 GPT-5.4부터 사라졌다.
Claude 채팅 환경과 달리 ChatGPT 환경에서는 악성 소프트웨어 접근을 차단하기 위해 자체 컨테이너 내 외부 인터넷 사용이 막혀 있다. 따라서 ChatGPT 컨테이너 공간에 git clone을 통한 리포지토리 다운로드 같은 행위는 불가능하다.[109] 이 경우 GitHub 커넥터로 파일을 한땀한땀 보는데 정말 오래 걸릴 뿐더러, 이전 메시지의 사고 과정이나 정보를 다시 참고하는 것도 구조상 제한적이기 때문에 같은 작업을 반복하게 되는 등 답변의 정확도가 떨어질 수 있다. 따라서 대부분은 사용자의 컴퓨터 환경을 활용해 이러한 제약에서 자유로운 Codex 사용이 권장된다.

[PST] 태평양 표준시 기준.[2] GPT-5.3-Codex는 약 한달 전 2월 5일에 출시됐다.[3] Instant는 5월 5일에 출시됐다.[4] 미국 정부의 지침과 검열로 인해 특정 기관을 대상으로 2026년 6월 26일에 제한적으로 공개했다.[PST] [6] 출시일로부터 약 10개월 이전이다.[7] 5.2 기준으로 출시일로부터 약 3개월 전이다.[8] 출시일로부터 약 5개월 전이다.[PST] [10] GPT-5 Thinking mini는 2026년 4월 18일(KST)에 종료됐다.[11] 원래 6월 6일 제거예정이였는데, 모종의 이유로 지연되다가 12일날 확실히 삭제됐다.[12] 학습 비용이며, 한화로 약 3조[13] NVIDIA H100 뿐만 아니라 OpenAI에서 구매한 AMD MI300X 150개 등 다양한 GPU들이 짬뽕된 개수다.[14] 정확한 훈련 날짜는 알 수 없지만 늦어도 11월 말에 학습을 시작하면 24년 2월엔 완료할 수 있을 것이다.[15] 몇 시간 뒤 샘 올트먼은 해고됐다가 닷새 만에 복직했다.[16] GPT2 was very bad. 3 was pretty bad. 4 is bad. 5 would be okay.[17] 참고로 세계 1위 기업 애플의 시가 총액이 5100조가 넘어가며, 미국의 2025년 예산안이 7조 3천억 달러로 1경 원이 조금 안 된다.[18] 그러나 GPT-4o가 2024년 5월 14일에 공개되며 여름에 출시될 가능성은 매우 낮아보인다.[19] o3는 독립형 제품(standalone)으로 출시되지 않을 것이라고 한다.[20] 사용자가 원한다면 '오래 생각하라'고 지시할 때도 Thinking으로 라우팅된다.[21] 일시적 인상이며, 추후 이전 한도로 되돌릴 수 있다. 이전 한도는 3시간 80회였다.[22] Pro 모드가 생각하는 도중 사용자가 추가 지시를 하면, Chain of Thought 과정에 즉시 반영해 업데이트된 지시사항을 바탕으로 추론을 계속 진행한다. 다만 지시가 너무 늦으면 경우에 따라 반영이 충분히 이루어지지 않을 수도 있다. 또한 Pro 모드의 답변이 나오기 전까지 다른 모델과 같은 세션에서 대화를 계속 이어나갈 수 있다.[23] 원래는 일부 사용자들에 한해서만 적용됐지만, 한국 시각 기준 11월 6일부터 Pro 모드를 사용할 수 있는 요금제의 모든 유저들에게 해당 업데이트가 반영됐다.[24] GPT-5 Thinking mini은 다른 날짜에 서비스 종료한다.[25] 헷갈릴 수 있지만, API에 명시한 GPT-5는 기본적으로 추론 시간을 설정할 수 있는 GPT-5 Thinking 모델이다.# 비추론형(non-reasoning) 모델은 API에서 GPT-5 Chat이라는 이름으로 별도로 제공하고 있으며, 라우터 모델은 ChatGPT 내에서만 제공한다.[26] 이후 해당 코드는 얼마 지나지 않아 삭제됐다.[27] 이후, 정식 출시명은 Thinking으로 유지됐다.[28] GPT-5 models remain available for three months under the Legacy models dropdown so you can compare and transition at your own pace.[29] GPT-5 Thinking mini 제외.[30] KST로 4:30, PST로 11:30 쯤이다.[31] 원래는 6월 6일이였으나 알 수 없는 이유로 지연됐다.[32] OpenAI 특성상 원래도 검열은 강했는데, 후술하는 이유 때문에 더 평가가 최악이 됐다.[33] 변동이 없다면, 한국 기준으로 2025년 12월 10일 오전 3시 즈음에 공개될 가능성이 존재한다.[34] 한국 기준 금요일 새벽 3시경[35] 터미널을 다루는 Terminal bench에서 정확도가 20% 정도 손실이 발생했다. 이는 속도를 얻고 정확도를 희생했다고 볼 수밖에 없지만, 그만큼 빠르게 답변을 하므로 어느 정도 상쇄될 수 있는 부분일 것으로 보인다.[36] GPT-5.3 모델 출시 직전에 모델 통합 계획이 나와서, 먼저 Codex만 공개한 뒤 GPT-5.3 Thinking에 5.3 Codex를 녹였는데 도구 활용 등의 성능이 크게 약진하자 이름을 GPT-5.4 Thinking으로 바꾸는 반쯤 장난질을 해서 출시했다는 얘기가 있다. 즉 날먹으로 새 모델을 개발했다는 것. 반면 비추론 버전이라 통합하지 않은 Instant는 그대로 GPT-5.3 Instant로 공개됐다.[37] 과거에도 GPT-5.2 출시를 앞두고 비슷한 형태로 모델 식별자가 유출된 사례가 있었다.[38] 2월 21일경부터 소수 사용자에게 먼저 시행된 것으로 보이나, 본격적인 테스트는 3월 1일경부터다.[39] 모델이 현재까지 진행한 내용, 앞으로 할 작업, 확인한 정보 등을 생각 단계 중간중간에 메시지로 보고한다. 사용자 입장에서는 최종 결과만 기다리지 않고 진행 상태를 더 직관적으로 확인할 수 있다.[40] 기존에는 '업데이트' 버튼을 눌러 추가 지시를 내리면 모델이 이를 반영해 작업을 이어가는 방식이었으나, 이제는 별도 버튼 없이 채팅창에 바로 메시지를 보내 추가 지시를 내리거나, 작업 진행 상황을 직접 물어보면 모델이 실시간으로 응답하는 등 훨씬 인터랙티브한 방식으로 변경됐다.[41] 글짓기 성능이 향상됐다는 체감평이 많다. 아직 Gemini나 Claude에 비하면 다소 아쉬운 부분이 있지만, 기존 GPT-5 계열을 생각하면 이제는 봐줄 만한 수준이라는 평가다.[42] Baekjoon Online Judge에서 단 한 명만 풀었던 루비 난이도 문제를 한 번에 해결하거나, 2026학년도 수능 물리 문제를 웹 검색이나 정답지 없이 PDF 파일 하나만으로 만점을 받는 등 문제 해결 능력이 크게 올랐다.[43] 예를 들어 모델이 Playwright를 사용해 OpenAI 컨테이너 안에서 크로미엄 브라우저를 직접 띄우고, 스스로 브라우저 스크린샷을 찍는 행동도 가능하다. 그러나 외부 인터넷 사용은 불가능하다.[44] OpenAI에서 쓰는 추론 노력 값의 단위. 값이 클수록 모델이 더 오래 생각한다.[45] 지금은 클라우드 환경에서도 GPT-5.5 모델이 쓰이고 있다.[46] 로컬 Codex 환경 한정이다. Codex CLI, VS Code 확장을 쓸 때다. Codex GUI 앱을 쓸 때는 클라우드가 아닌 로컬로 설정해야 한다.[47] 사실 Claude Code가 코딩을 잘 한다는 평가가 나오는 경우는 보통 Sonnet보다 Opus 모델이 쓰였을 때인데 GPT로 치면 Pro 모델과 동등한 포지션인지라 코딩 능력이 안 좋으면 그게 더 이상한 것. Codex는 Claude의 Sonnet과 비슷한 GPT Thinking 모델을 사용한다.[48] 앞에서 물어볼 때에 이미 나왔던 재방송 답변이 돌아오는 증상은 이미 GPT-5.4 Thinking에서도 있었다.[49] Needle In A Haystack의 줄임말. 긴 문맥 속에 숨겨진 특정 정보를 정확히 찾아내는 능력을 측정하는 평가 방식.[50] 단순히 수학을 푸는 능력만 중요한 것이 아니라, 검산 및 증명하는 과정에서 발생할 수 있는 수학 오류도 잘 잡아낼 수 있는지가 중요한데, GPT-5.2 이후부터는 이 분야에서 타사 프론티어 모델보다 크게 앞선다. Opus 4.7, Sonnet 4.6을 연동한 Claude Code 환경에서 코딩이 잘 된다는 평가가 있지만 이조차도 데이터 엔지니어링, 머신러닝 영역에서는 GPT-5.4, GPT-5.5 계열의 Codex 환경에서 나오는 결과물에 밀린다.[51] 이후 6월 19일에 GPT-5.6 Pro도 올라왔다는 글 내용이 새로 추가되었다.[52] Juice 수치를 확인하려면 복잡한 지시 없이 GPT 모델에게 '이 대화 세션을 기준으로 현재 추론 강도를 Juice 수치로 알려달라'고 요청하면 된다. 다만, 이는 시스템 지침 내 설정값을 보여주는 요청이기 때문에 모델의 개인화 설정, 성격, 메모리 등 ChatGPT 환경에 따라 모델이 시스템 지침을 보여달라는 지시로 간주하고 답변을 거부할 수 있다. 마찬가지로 SNS와 커뮤니티에 공유되는 특수 프롬프트도 사용자의 시스템 지침 우회 추출로 간주하고 답변을 거부하기도 한다.[53] 상술했던 A/B테스트로 배포된 것들도 모두 회수되었는지, Juice에 대한 프롬프트를 입력했을 때도 5.5에 해당하는 768이 나온다.[54] 2025년 2월에는 "무료 사용자도 GPT-5 무제한에 접근하게 될 것이다"라며 서서히 빌드업을 쌓아왔고, 출시 한 달 전인 7월에는 "GPT-5 답변을 보고 내가 쓸모없게 느껴졌다", "우리가 무슨 짓을 한 거지라고 느낀 순간이 있었다", "GPT-5는 거의 모든 면에서 우리보다 똑똑하다", "어른이 방 안에 없다" 등의 발언을 이어갔다. GPT-5 출시 직전에는 샘 올트먼이 자신의 X 계정에 스타워즈 시리즈에 등장하는 데스스타 사진을 올리면서 기대감이 절정에 달했다.#[55] 특히 소설이나 서브컬처 분야에서 불만이 컸는데, 이어쓰기 시 분량이 줄거나 글쓰기 형식(소제목 생략, 제목·소제목 크기 등)을 무시하는 일이 잦아졌으며, 창의성과 능동성이 부족해지고 캐릭터 말투나 이름 표기 등도 크게 나빠졌다는 반응이 많다. 다만 설명문 등 정보 전달 목적의 글은 비교적 무난하다는 평가도 있다.[56] 정확하게는 3월 27일 업데이트 이전 모델을 말한다.[57] 사실 이부분은 재미나이의 연속적인 모델 미출시와 성적 부진, 클로드 코드의 수많은 버그 및 자주 바뀌는 요금제, Mythos 공포마케팅등과 대비되는 별 일없는 회사, 높은 할당량과 잘 만들어진 Codex등으로 서비스와 소프트웨어 때문에 높은 평가를 받고있는것도 크다.[58] 다만 3월 27일 이후의 GPT-4o는 표현을 과장하거나, 비현실적인 주장에 맞장구를 치며 망상적 사고를 조장하거나, 이모지를 과하게 사용하는 등의 문제가 있어 오히려 이를 불편해하는 사용자도 적지 않았다는 점은 감안할 필요가 있다.[59] ChatGPT의 대화 세션 내 버그로 인해 발생한 환각 현상이다. 이 문제는 과거 모델에서도 보고됐던 적이 있다.[60] 추론 모델은 비추론 모델보다 상대적으로 더 우수한 이해력을 가진다.[61] 대부분 사후학습의 영향을 가장 많이 받는 분야다.[62] OpenAI Town Hall with Sam Altman, 10분 47초부터 샘 올트먼이 직접 "I think we just screwed that up."이라고 발언했음을 확인할 수 있다.#[63] ChatGPT 환경에서 추론형 모델을 사용하면, 필요 시 추론형 모델용 웹 검색 도구(web.run)를 스스로 호출해 검색과 추론을 반복하면서 답변의 정확성을 높인다.[64] 사실 이는 단순한 언어 학습 문제가 아닌 매우 치명적인 안전 문제이다. OpenAI, Google 등 AI를 제공하는 기업들은 사용자의 안전을 최우선으로 고려해 AI를 만드는데, 그런 AI가 맹독성 버섯을 활용하는 음식 레시피를 제공한다는 것 자체가 매우 심각한 문제이다. 이런 안전 문제 때문에 GPT-5를 비판적으로 바라보는 시각도 일부 보인다.[65] 이래놓고 OpenAI 측에서는 GPT-5가 한국어 능력도 개선됐다는 점을 홍보했다는 게 아이러니하다.[66] Cordyceps militaris(번데기동충하초), Hericium erinaceus(노루궁뎅이버섯), Clavaria zollingeri(자주싸리국수버섯)과 헷갈리지 않고 명확하게 구별할 수 있다.[67] 한국어는 보통 '수상한 냄새가 난다' 같은 부정적인 의미로 쓰는 경우가 많고, '돈 냄새가 난다'는 식의 말도 쓰이긴 하는데 남발하면 물리적인 돈의 냄새의 심상이 침투해 기괴하게 느껴진다. 검색 결과에서도 돈 냄새라는 말은 두 뜻이 뒤섞여 나온다. '번역 냄새'처럼 한국어에서는 아예 쓰이지 않는 비유를 창조해내기도 한다.[68] 층위(stratum)는 표준국어대사전 기준, 언어학과 지구과학에서만 쓰이는 용어로, 본래는 지질학 용어이다. 주요 용법이라 할 수 있는 언어학 용법을 기준으로, '층위'라는 것은 언어 내에서 여러 요소들의 상대적인 위치를 '상층'(superstratum), '하층'(substratum) 식으로 구분하기 위해 쓰는 개념이지, 단순한 '층'이라는 의미로 쓰는 개념이 아니다.[69] 예시: 이는 여러 층위를 가진 현상입니다.[70] 확실한 것 같은 거의 모든 상황에 선명하다는 말을 쓰는데, 한국어는 눈으로 바라봤을 때 자극이 강하다는 뉘앙스가 너무 강력하므로 어색한 문장이 만들어지는 경우가 잦다.[71] GPT-5 계열부터는 마지막에 후속 질문 및 제안이 거의 빠짐없이 나온다. 하지만 사용자가 원하지 않을 경우 거슬리기 때문에 글쓴이가 역질문을 하지 말라고 지시 한 것. 그러나 '역질문'이나 '역제안'이란 단어는 원래부터 '상대의 질문이나 제안에 직접 답하지 않고 되돌려 묻거나 제안할 때 쓰는 표현'이기 때문에 적용이 제대로 되지 않을 수 있다.# 따라서 '후속 질문', '후속 제안'이라는 단어를 사용해 개인 맞춤 설정 - 맞춤형 지침에 적용하는 것이 좋다. 이 경우 둘 다 방지 효과는 좋지만, Instant보다는 Thinking에서 상대적으로 더 효과가 좋은 편.[72] 이는 생각하는 과정에서 강제로 검색하기 때문인 것으로 보인다. 환각 낀 결론을 먼저 정하고 이를 증명하기 위해 검색하는 경우도 많다. 검색이 거지같다고 조롱하거나 하지 말라고 해도 검색하며, 검색 기능을 활성화하지 않아도 강제로 쓴다.[73] 수학적으로 3:6과 3÷6은 같은 의미가 될 수 있다.[74] 다만, 사용자의 요청사항에 따라서 한 텀이 아니라 두 텀이나 세 텀 이상의 시간을 필요로 하기도 한다.[75] GPT-4o, GPT-4.1, GPT-4.1-mini, GPT-4.5[76] o3, o4-mini, o4-mini-high[77] 결국 후술하겠지만 5에서는 네 가지의 대답 성격 유형을 새롭게 제공할 예정이라고 발표했다.[78] 출시 직후에는 GPT-4o도 계속 사용 가능했으나, 특정 시간대에 어플리케이션과 웹사이트에서 완전히 제거되어 ChatGPT 어플리케이션이 업데이트된 경우 GPT-4o를 사용할 수 없게 됐다. KST 기준 8월 9일 새벽, 서버 자체에 업데이트가 되면서 ChatGPT 어플리케이션을 업데이트하지 않아도 GPT-4o를 사용 불가하게 됐다.[79] 무료 계정에 대해서는 언급되지 않았다. 그렇기 때문에 무료 계정에서 GPT-4o를 다시 사용하려면 ~~OpenAI가 무료 계정을 더욱 관대하게 지원해 주길 빌며~~ 그냥 기다리거나, 유료 요금제로 갈아타야 된다. 이미 Play Store 리뷰만 봐도 GPT-4o의 한도가 극도로 짧다고 불만을 터뜨리는 사람들이 많았는데 그마저도 사라지고 유료 아니면 OpenAI 측에서 다시 풀어줄 조짐도 전혀 보이지 않기 때문에 무료 사용자들은 복장 터질 노릇. 사실 이전부터 무료와 유료의 격차는 매우 컸지만, 이번 GPT-5 업데이트로 더욱 심해진 셈이다.[80] 이때 주소창에 'chatgpt.com' 뒤로 '?model=gpt-4-1-mini'가 명시적으로 나타난다. 즉, GPT-4.1-mini가 호출됐을 가능성이 크다는 것. 모델 스스로는 자신을 GPT-4o-mini 기반이라고 언급한다. 다만, GPT-4.1-mini의 ChatGPT 시스템 프롬프트도 'GPT-4o-mini 모델 기반(based on the GPT-4o-mini model)'으로 설정되어 있기 때문에 실제 GPT-4o-mini 모델로 동작 중이라는 의미로 보기는 어렵다.[81] 기존에는 사용자의 메시지에 따라 자동으로 추론 모델(Thinking mini)로 전환됐지만, 이제는 직접 '+' 메뉴를 눌러 '잘 생각하기'를 선택해야 동작한다.[82] GPT-4o, 4.1, 4.5 등 비추론 모델에만 해당하며, o3, o4-mini 같은 추론 모델은 대상에서 제외된다.[83] Pro 요금제에서 쓸 수 있는 GPT-4.5에는 여전히 적용 중이다.[84] GPT-4o, GPT-4.1/4.1 mini, OpenAI o4-mini, GPT-5 Instant/Thinking[85] ChatGPT 웹에서 사용자와 대화할 때 확인할 수 있는 conversation 데이터의 'server_ste_metadata'를 확인하고 라우팅 구조를 해석한 것이며, 완전히 동일하지는 않아도 GPT-5의 라우팅 흐름을 확인해 보는 데에는 큰 무리가 없다. 2026년 1월 기준으로도 상당히 정확한 라우팅 구조다.[86] 실제로 그동안 mini의 high 버전은 Plus 이상 유저에게만 풀어줬었기에 더욱 그렇다.[87] 추론 노력 시간에 따라 low-medium-high, 그리고 파라미터 자체를 줄인 mini와 nano까지 존재한다.[88] 시스템 프롬프트에 변수로 지정되어 있는 추론 노력 값의 단위인 'Juice'를 출력하는 프롬프트를 말한다.[89] 안드로이드 앱은 2025년 12월 말 업데이트로 생각 시간을 선택할 수 있게 됐다.[90] 특히 모델의 감정표현 영역.[91] 메시지가 민감하다고 보고 생각하고 대답 하기 위해 강제로 전환되는 것이다. 이때 생각 건너뛰기는 불가능하다.[92] 이에 일부 유저들은 gpt-5-chat-safety을 검열이 더 강화된 GPT-5 비추론 모델로 추측하기도 했으나, 실제로는 모델 구분자만 다를 뿐인 GPT-5 Instant와 동일한 모델이다. ChatGPT 환경에선 동일한 모델이더라도 라우팅 상태에 따라 모델 구분자가 여러 가지 존재한다. 즉, 새로운 모델 구분자가 발견됐어도 이게 곧 새로운 모델임을 의미하는 게 아니라 같은 모델일 수도 있다는 뜻이다. 예를 들어 같은 GPT-5 Thinking이더라도 어떤 방식으로 라우팅됐는가에 따라 모델 구분자도 gpt-5-auto-thinking 또는 gpt-5-thinking로 구별된다.[93] 겸 부사장[94] 최근 출시된 5.1이 여기에 해당하는 것으로 보인다.[95] 사실 일괄적인 전체이용가 검열보다 성인과 미성년자를 구분해 따로 적용하는 것이 훨씬 효율적이고 안전성이 높다.[96] 목표는 1분기이지만, 모델의 정확도에 따라 더 미뤄질 수도 있음을 시사한다.[97] 입증되지 않은 정보나 비과학적인 의견에는 올바르게 선을 긋고 논리적인 대답을 이어나가나, 인공지능 환각에 의한 잘못된 입장이나 결론도 끝까지 고수하며 방어적인 자세를 취한다. 이처럼 언어 모델의 동조 편향과 정직 사이의 갈등에 대해선 연구에서도 꾸준히 언급되어왔던 문제이며, 현 시점에서도 사람처럼 유연한 응답을 기대하기 어려운 것이 현실이다.[98] 특히 상대적으로 언어 능력이 떨어질 수밖에 없는 비영어권에서 이러한 지적이 심하다.[99] 이는 '로봇' 성격엔 "불필요한 말을 줄이고, 짧은 문장으로 말하라"는 개발자 성격 지침이 존재하기 때문이다.# 이때, 권한순서에 따라 유저의 지시보다 개발자(및 시스템) 지시가 더 우선시되기 때문에 이를 무시하는 현상이 생기는 것.[100] 어떠한 상황에서든 '절반은 맞고, 절반은 틀리다'라는 말을 자주 하거나, 사용자의 의견을 수용하는가 싶다가도 '다만' 이라는 말을 자주 붙여 여지를 두는 행동을 보인다. 심지어 범죄나 역사왜곡 문제 등 절대 중립적이어서는 안 되는 주제까지 억지로 중립적인 의견을 내려고 한다. 즉 식민지 근대화론이나 5.18 계엄군의 학살, 홍콩 탄압까지 옹호하려고 한다.[101] 즉시 답하는 Instant 모델보다 생각하는 시간이 있는 Thinking 모델에서 더욱 효과가 크다. 이때 생각 시간은 확장으로 변경하는 것이 좋다.[102] 프롬프트 토큰이 200,000개 이하일 때[103] 실제로 Grok 4는 “Humanity’s Last Exam”이라는 고난도 벤치마크에서 가장 높은 점수를 기록했다. #[104] 이후 추가 모델 스냅샷 업데이트 없이 3월 27일 버전이 그대로 유지됐고, 2026년 2월에 그 상태로 서비스가 종료됐다. Arena에서는 chatgpt-4o-latest API를 마지막까지 '2025년 3월 26일' 버전으로 표기했으며, 이 API는 ChatGPT에서 사용하던 GPT-4o와 동일한 서빙 모델이었다.[105] 덕후 성격은 2026년 3월 17일(PST)에 제거됐다.[106] 위의 논란에서 확인할 수 있듯이, 정말로 동조 편향을 줄인 것이 아니라 단순히 반박 편향으로 만든 것일 뿐이 아니냐는 비판 또한 존재한다.[107] 예를 들어 "우리가 만든 아이폰 중 최고입니다." 따로 편집된 영상이 있을 정도로 유명하다. #[108] 예를 들어 "17% 증가한 총 시스템 메모리 대역폭 엄청난 성능을 뿜어내는 iPhone 사상 가장 높은 대역폭"#[109] 명령어 구동하다가 DNS에서 막힌다. 한편 PyPI는 OpenAI 내부 미러 서버를 통해 다운로드를 시도한다.

GPT-5

1. 개요

2. 역사

3. 모델

3.1. GPT-5

3.1.1. gpt-5-main

3.1.2. gpt-5-main-mini

3.1.3. gpt-5-thinking

3.1.4. gpt-5-thinking-mini

3.1.5. gpt-5-thinking-nano

3.1.6. gpt-5-thinking-pro

3.1.7. gpt-5-codex

3.2. GPT-5.1

3.3. GPT-5.2

3.4. GPT-5.3

3.5. GPT-5.4

3.6. GPT-5.5

3.7. GPT-5.6

4. 논란 및 문제점

4.1. 언어 이해력 및 표현력 저하

4.2. 양극화

4.3. 불안정한 프롬프트 및 쿼리 처리

4.4. 구버전 모델 삭제 번복에 따른 혼란

4.5. 불명확한 응답 모델

4.6. 과도한 안전 조치

4.7. 맞춤형 지침 미반영 증가

4.8. 방어적인 설명과 무례함

5. 개선점 및 반론

5.1. 속도와 비용 효율성

5.2. 외부 도구 활용 능력 개선

5.3. 동조 편향 현상 감소

6. 여담

분류