GPT-Image


{{{#!wiki style="margin:0 -10px -5px" {{{#000,#fff {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" {{{#000,#e5e5e5	<colkeepall> 제품군
서비스	ChatGPT(ChatGPT/기능 · 사용법) · OpenAI(인공지능) · Operator · Codex · Sora · Atlas
모델	GPT GPT-1 · GPT-2 · GPT-3 · GPT-4 · gpt-oss · GPT-5 · GPT-6^{개발 중} o-시리즈 o1 · o3 · o4-mini
	DALL·E · Codex · CLIP · Whisper · Voice Engine · ~~Sora~~ · GPT-Image · SearchGPT · CUA
관련 인물
일론 머스크 · 샘 올트먼 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 · 다리오 아모데이

}}}}}}}}}}}}}}} ||

🎨 그림 인공지능
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px)" {{{#!folding [ 펼치기ㆍ접기 ] {{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"	생성형 인공지능	DALL·E · Firefly · FLUX · Gaugan2 · GPT-Image · Grok Imagine · Imagen · Midjourney · 나노 바나나 · NAI Diffusion · Qwen-Image · Samsung Gauss Image · Seedream · Stable Diffusion · Z-Image
학습 방해 프로그램	Glaze (Nightshade) · Mist

}}}}}}}}} ||

1. 개요2. 모델 목록

2.1. GPT-Image-1(4o 이미지 생성)2.2. GPT-Image-1.52.3. GPT-Image-2

3. 기타

3.1. ChatGPT 지브리풍 이미지 생성 유행

1. 개요

ChatGPT의 이미지 생성 모델 시리즈를 정리한 문서. 기존 이미지 모델인 DALL·E의 후속 모델이다.

2. 모델 목록

2.1. GPT-Image-1(4o 이미지 생성)

2025년 3월 26일, GPT-4o로 동작하는 이미지 생성 기능이 추가되었다. API명은 gpt-image-1. 이미지 생성에 디퓨전이 아닌 오토리그레시브(Autoregressive) 방식을 사용하였는데, 기존 이미지 생성보다 사용이 간편하면서도[1] 자연스러운 이미지를 만들 수 있는 뛰어난 지시 이행 능력과 퀄리티에 많은 커뮤니티가 충격에 빠졌다. 거기다 멀티모달 기반이기 때문에 텍스트 생성이 자연스러워 진 것은 덤. 영어는 말할 필요도 없고 한글도 거의 그럴싸한 수준으로까지 표기할 수 있다. DALL-E와는 완전히 다르다.[2] 공식 소개

OpenAI CEO 샘 올트먼은 27일(현지시간) 자신의 X에 "사람들이 우리의 새로운 ChatGPT 이미지를 활용해 만들어 낸 이미지를 보는 것을 좋아한다"고 밝혔다. 그러면서도 그는 "때문에 우리의 그래픽처리장치(GPU)가 녹아내리고 있다"고 덧붙였다.

올트먼 CEO은 ChatGPT 이미지가 좀 더 효율적으로 기능하는 것을 돕기 위해 일시적으로 ChatGPT 이미지의 사용을 제한할 것이라고 설명했다. ChatGPT 이미지 효과적인 기능을 위해 속도를 제한하겠다는 것이다. 실제로 이날 ChatGPT 이미지를 사용해 이미지가 생성되는 시간은 주초보다 훨씬 늘어난 상태다. ChatGPT 이미지가 생성될 때 "시간이 걸릴 수 있다"라는 메시지가 표시되는 시간이 길어졌다. #

2025년 3월 28일 ChatGPT의 GPT-4o가 업데이트 되었다. #

업데이트된 내용

상세한 지시, 특히 여러 요청의 프롬프트 이행 능력 향상
복잡한 기술 및 코딩 문제를 해결하는 능력 향상
직관력과 창의력 향상
줄어든 이모지 사용

"업데이트된 GPT-4o는 지금부터 모든 유료 사용자분들께 제공됩니다. 무료 사용자분들은 몇 주 안에 만나보실 수 있습니다."라고 밝혔다. #

화제가 되면서 사용자가 몰리다 보니, 2025년 3월 30일에 샘 올트먼 CEO가 직접 "여러분 제발 이미지 생성 좀 적당히 해주세요 이거 진짜 미쳤어요 우리 팀도 잠 좀 자자구요"라고 X에 글을 올렸다.#

이미지 생성 기능 추가후 1주일 동안 만들어진 이미지가 7억장이라고 밝혔다.#

이미지 생성 기능으로 만든 결과물에는 ChatGPT 도구에서 생성된 이미지임을 알 수 있는 C2PA 메타데이터가 포함된다. 이는 Content Credentials를 통해 검증할 수 있다.[3]

프롬프트로 매우 자세하기 조정하지 않는 한 생성된 이미지들에 강한 따뜻한 색조가 입혀진다. 심할 경우에는 오줌 필터라며 비난 받는 경우도 있다. 같은 이미지를 반복해서 재생성 해 달라고 요청할 경우 거의 진한 갈색까지 왜곡된다.

2026년 10월 23일에 완전히 사라질 예정이다.# 다만 mini 모델은 제외.

2.2. GPT-Image-1.5

2025년 12월 17일, 새로운 ChatGPT 이미지(GPT-Image-1.5)가 출시됐다. [4]

기존 모델에 비해 상당한 성능의 향상이 있었지만 나노바나나 프로에 비해 이미지 유지력이나 디테일 부분에서 부족한 부분이 많다는 평을 받는다. 나노 바나나보단 우수해도 여전히 이미지 부분에서 구글과의 격차를 줄이기에는 부족하다는 평이다. 다만 이번 1.5 모델 또한 4o 기반의 모델이라 차후 출시될 2.0 이상 이미지 모델은 성능 향상을 기대해 볼 법 하다.

2.3. GPT-Image-2

OpenAI ｜ 이것이 ChatGPT Images 2.0입니다.

[ 정식출시 이전 ]: 2026년 4월 이전부터 ChatGPT Images를 사용하다보면 "어느 이미지가 더 마음에 드시나요?"라는 문구와 함께 두 장의 이미지 중 하나를 선택하는 비교 평가 테스트가 간헐적으로 등장하고 있었다. 테스트가 뜰 때마다 이미지 스타일이 크게 달라지는 경우가 많았으며, 대체로 새로운 스타일 쪽을 선호하는 반응이 많았다. 3월 초까지는 비슷한 방향성이 유지되었으나 한글 렌더링 품질은 여전히 아쉬운 수준이었는데, 한국 시각 3월 30일경부터 비교 평가 테스트가 등장할 때마다 한글 품질이 눈에 띄게 향상된 이미지가 나타나기 시작하면서 커뮤니티에서 화제가 되었다.

2026년 4월 3일 오후 1시 경, Arena의 이미지 생성 모델 블라인드 테스트에 packingtape-alpha, gaffertape-alpha, maskingtape-alpha라는 접착 테이프 테마의 코드명을 가진 세 개의 익명 모델이 동시에 등장했다. 이후 약 22시간 만에 내려갔으나, SNS와 AI 커뮤니티에서 빠르게 화제가 되었다. 세 모델은 알파라는 이름이 붙은 만큼 GPT-Image-2의 초기 체크포인트로 추정되며, 각각 GPT-Image의 Low, Medium, High 품질 옵션에 대응하는 것으로 보인다.[5] 단시간의 테스트에서 사실성, 텍스트 렌더링, 세계 지식 3가지 부문 모두 기존 모델을 크게 능가하는 성능을 보여주었으며, 그중 High 옵션으로 추정되는 maskingtape-alpha가 가장 좋다는 반응이 많았다.#

이후 해당 모델들은 GPT-Image-2의 초기 체크포인트 모델로 사실상 확정되었다.

2026년 4월 15일 오전 9시경, 최신 체크포인트로 추정되는 duct-tape-1, 2, 3이라는 세 개의 익명 모델이 Arena에 새로 등장했다. duct-tape라는 이름의 유래에 대해서는, 바나나를 벽에 덕트 테이프로 붙인 마우리치오 카텔란의 작품 코미디언에서 따온 것이 아니냐는 추측이 커뮤니티에서 돌았다. 경쟁사 구글의 나노 바나나를 의식한 네이밍이라는 것. 비교용을 위해서인지 오전 11시 경에 maskingtape-alpha 모델도 다시 등장하였다. duct-tape는 초기 모델보다 한층 더 발전하여 스타일의 다양성, 텍스트 렌더링 정확도가 크게 향상되었으며, 특히 세세한 지침 이행능력이 매우 우수하다는 반응이다. 이번엔 High 옵션으로 추정되는 duct-tape-3의 퀄리티가 가장 좋다는 반응이 많았다. 그래서 당시에는 일명 덕테이프라고도 불렸다. 이후 정식 출시 당시 OpenAI 라이브를 통해 duct-tape가 GPT-Image-2임이 명확하게 드러났다.[6]

이후 A/B 테스트 차원으로 무료를 포함한 일부 ChatGPT 사용자들에게 GPT-Image-2가 기본으로 적용되기 시작한 것이 확인되었다. 다만 A/B 테스트 특성상 생성할 때마다 체감 품질 기복이 보이는 편이다.[7]

현지 시각 21일, 한국 기준(KST)으로는 2026년 4월 22일 오전 4시,[8] GPT-Image-2(ChatGPT Images 2.0)가 출시되었다. 이미지 지식 컷오프는 2025년 12월이다.

OpenAI는 KST 2026년 4월 21일 오후 11시, X와 Discord를 통해 KST 22일 오전 4시에 라이브를 예고했다. "This is not a screenshot."이라는 문구와 함께 macOS 환경의 ChatGPT 웹 화면에 라이브 예정 시간이 표시된 이미지를 게시했는데, 이 이미지 자체가 스크린샷이 아닌 AI로 생성된 이미지였다.# 스크린샷을 가장한 생성 이미지를 공지에 사용한 만큼, 새로운 ChatGPT Images 모델과 관련된 발표일 것으로 추정된다. 이후 정식 출시되었다.

GPT-Image-2는 GPT-Image-1 시절부터 지적되어 온 누런 색감 문제가 크게 해소되었으며, 미적 감각과 텍스트 렌더링 정확도가 크게 향상되었다. GPT-Image-1.5에서는 한국어를 포함한 다국어 문자를 제대로 표현하지 못했지만, GPT-Image-2는 결이 다른 수준으로 개선되었다. 텍스트 분량이 많을 경우 오히려 Nano-Banana 시리즈는 깨지는 반면 GPT-Image-2는 잘 출력해 준다. 세계 지식도 대폭 강화되었으며, 지원 종횡비도 GPT-Image-1.5에선 3가지[9]만 지원했지만, 이젠 1:3부터 3:1 사이에서 종횡비를 자유롭게 지정할 수 있게 되었다. 또한 아직은 실험용 기능이지만 API를 사용하면 3840 x 2160의 4K 이미지 생성도 지원한다. 다만 아직 종횡비는 꽤 경직적이어서 이미지 수정의 경우 정해진 종횡비에 맞추기 위해 기존의 이미지를 억지로 잡아늘리거나 수축시키는 경우도 보인다.

그러나 이미지를 수정할 때, 스타일이 바뀌거나 없던 오브젝트가 생기는 등 품질 기복이 구글의 나노 바나나보다 심한 편이다. 특히 Instant 모델로 생성하면 종종 노이즈, 점묘사나 체크보드 패턴이 심하게 드러나는 문제가 있다.[10] 이 외에도 간헐적으로 메인 피사체 주변에 불필요한 테두리나 피사체의 흔적이 유령처럼 나타나는 고스트 현상도 존재한다. 마찬가지로 이 현상은 API에서 GPT-Image-2를 low 퀄리티 옵션으로 생성하면 쉽게 확인할 수 있지만, medium이나 high 옵션으로 설정된 경우 해당 현상이 줄어들거나 사라진다. 이런 문제에 대해 OpenAI 연구원 천보위안(Boyuan Chen, 陈博远)은 현재 해당 문제를 고치고 있는 중이라고 답하였다. 이후 Instant에서 이미지를 생성하면 종종 비교 평가 테스트가 나타나는데 여기서 생성된 이미지들은 문제점들이 해소된 상태다. 일단 현재 생성되는 이미지들은 종종 문제가 있음에도 기본적으로 나노 바나나 2 및 나노 바나나 프로보다 편집 지침은 잘 이행하는 편이다.

Instant로 이미지 생성을 요청하면 한 장의 이미지가 생성되며, Thinking으로 이미지를 생성하면 더 디테일한 이미지 생성을 위해 프롬프트 대필 특화모델(GPT-5.4 Thinking)이 생각을 시도한다. 이때 Thinking은 필요하면 웹 검색을 시도하여 추가 정보나 참고용 이미지를 확보한 후 더욱 정확한 이미지를 생성한다. Thinking에선 사용자의 지시에 따라 이미지를 여러장 생성할 수도 있으며, 이 외에도 생성된 이미지가 목적에 부합하지 않는다고 판단하면 이미지를 다듬어서 다시 생성한다. 만약 사용자가 원하는 이미지가 나왔다고 생각이 되면 정지 버튼을 눌러 추가 생성을 중단시킬 수 있다.

구글의 나노 바나나가 정식 출시 후에도 Arena(구 LMArena)에서 테스트 될 당시의 내부 코드 이름인 나노 바나나로 불리듯이, 한국 인터넷 커뮤니티에서는 해당 모델을 가리켜 아레나 당시의 내부 코드네임 'duct-tape'를 따서 '덕(트)테이프'로 부르기도 한다. 사실상 이 이름부터가 나노 바나나를 제대로 저격한 것이라고 할 수 있다.

ChatGPT, Codex 및 API에서 이미지를 생성하면 기존 C2PA 메타데이터와 더불어 AI 생성 여부를 판독할 수 있는 구글의 SynthID 디지털 워터마크가 삽입된다. 2026년 5월 기준 자사 AI로 생성한 SynthID만 판독할 수 있으며, 향후 타 플랫폼에서도 확인할 수 있도록 통합 예정이다.검증 페이지

3. 기타

이미지 종횡비를 지시할 수 있다. 원하는 이미지 종횡비(예시: 모바일 사이즈, 가로 와이드 스크린, 1:1, 4:5, 16:9, 21:9 등)를 프롬프트에 명시하면 이를 최대한 따라서 생성한다.
한 한국인 네티즌이 작성한 프롬프트가 다듬어져서 공식 프롬프트로 편입되는 사건이 발생했다, 세상에서 제일 하찮은 프롬프트 문서 참조.
ChatGPT에서 이미지 내 워터마크 삭제를 직접적으로 요청하면, 언어 모델의 시스템 지침에 적힌 이미지 생성 정책에 따라 언어 모델이 이미지 생성을 거부할 수도 있다. 다만, 나노 바나나와 동일하게 유저 지침에 따라 응답이 크게 갈리는 편이다. GPT-Image-2를 직접 API로 사용하는 경우에는 해당되지 않는다.

3.1. ChatGPT 지브리풍 이미지 생성 유행

OpenAI CEO인 샘 올트먼이 X에 자신의 사진을 지브리풍으로 바꾼 사진을 바꾸며 시작된 유행. 자세한 내용은 항목 참조.

[1] 기존 이미지 생성의 프롬프트 나열 조합식이 아닌, 자연어로 요청해도 술술 나온다. NAI 이미지 제네레이터에도 V4에서 자연어를 인식할 수 있게 되었지만, 그것과는 차원이 다른 자연어 인식 수준을 보여준다.[2] 기존에는 자사 모델이었던 DALL-E에게 요청한 뒤 그 결과를 보여주었으며 자체 이미지 생성 기능은 없었다. 업데이트 이후로 기존 DALL·E는 별도의 GPTs에서 선택하여 사용하는 방식으로 변경되었다.[3] 그러나 이렇게 생성된 이미지를 다시 ChatGPT에 업로드하더라도, 모델이 이런 데이터를 자동으로 읽어들이는 기능을 지원되지 않으므로 ChatGPT 내에서 AI 생성 여부를 명확히 확인하는 것은 불가능하다. 또한 이미지가 스크린샷되거나 SNS에 업로드되는 과정에서 메타데이터가 삭제되면 외부 사이트를 통한 확인도 불가능하다.[4] 기존의 4o 이미지 생성은 일반적인 방법으로 더 이상 이용할 수 없다. 대신, API와 별도의 GPTs를 통해서만 이용할 수 있다.[5] 이는 2025년 12월 GPT-Image-1.5 출시 직전에 "hazel-gen-2/3/4"라는 코드명의 익명 모델이 Arena에 등장했다가 공식 출시된 패턴과 동일하다.[6] 이미지 생성 시연 결과물에 "'DUCT TAPE' is actually GPT-Image-2"라는 내용이 나오며 확정되었다.[7] GPT-Image-1이나 1.5는 유저들이 그 차이를 크게 느끼지 못하는 반면, GPT-Image-2는 체감 품질 차이가 크게 두드러지는 편이다.[8] 공교롭게도 한국시각 기준으로는 OpenAI의 CEO 샘 올트먼의 생일이다. 미국 시각 기준으로는 4월 21일.[9] 1:1, 2:3, 3:2[10] Thinking을 사용해도 종종 발생한다.

GPT-Image

1. 개요

2. 모델 목록

2.1. GPT-Image-1(4o 이미지 생성)

2.2. GPT-Image-1.5

2.3. GPT-Image-2

3. 기타

3.1. ChatGPT 지브리풍 이미지 생성 유행

분류