생성형 인공지능

생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"	유니모달 모델 기반
<colkeepall> 텍스트	[[소설\| 소설 ]] NovelAI · AI Dungeon · AI Novelist
대화형	[[챗봇\| 챗봇 ]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
대화형	[[언어 모델\| 언어모델 ]] GPT · LLaMA · Gemma · Claude · Phi · Exaone · OpenELM · Qwen · DeepSeek
코드	[[코드#컴퓨터 소프트웨어\| 코드 ]] GitHub Copilot · Devin · Phind · DeepSeek
이미지	[[그림 인공지능\| 그림 ]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
	[[영상 인공지능\| 영상 ]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
	[[모델링\| 모델링 ]] LATTE3D
오디오 소리	[[음성\| 음성 ]] A.I.VOICE · DeepVocal · Voice Engine
오디오 소리	[[음악\| 음악 ]] Suno · Stable Audio · Udio · AIVA
멀티모달 모델 기반
대화형	+이미지 Exaone 3.5 · Samsung Gauss
	+음성/이미지 GPT-4o · ~~GPT-5~~ · Gemini · o1 · o3 · DeepSeek
	+에이전트 Galaxy AI · Claude 3.5 Sonnet
행위 동작	[[지능형 에이전트\| 에이전트 ]] Apple Intelligence · Project Astra · ~~Google Jarvis~~
행위 동작	[[인공지능 로봇\| 체화 ]] Tesla optimus · Google RT-X · Project Gr00t	}}}}}}}}}

1. 개요2. 특징3. 종류

3.1. 텍스트 인공지능

3.1.1. 소설형 인공지능3.1.2. 대화형 인공지능3.1.3. 인공지능 검색 엔진

3.2. 이미지 인공지능 (Text to Image, Image to Image)3.3. 대화형 음성 인공지능

3.3.1. Text to Speech3.3.2. Speech to Speech

3.4. 비디오 인공지능 (Text to Video/Image to Video)3.5. 작곡 · 음악 생성 인공지능3.6. 효과음 인공지능3.7. 코딩 인공지능3.8. 단백질 구조 예측 인공지능3.9. 멀티모달 인공지능(LMM)3.10. 물리엔진3.11. 인공지능 로봇(Text to Action)3.12. 오디오 생성 인공지능

1. 개요

Generative AI

생성형 인공지능 또는 생성형 AI는 프롬프트에 대응하여 텍스트, 이미지, 기타 미디어를 생성할 수 있는 약인공지능으로, 단순히 기존 데이터를 분석하는 것이 아닌, 새로운 콘텐츠를 만드는 데 초점을 맞춘 인공지능 분야를 말한다.[1]

생성형 AI는 머신러닝과 딥러닝 기술의 발전에 의해 탄생했으며, 특히 대규모 언어 모델(LLM)을 통해 높은 수준의 생성 능력을 보유하고 있다. 기존 데이터를 학습하여 새로운 형태의 정보를 만들어내며, 이러한 과정에서 사용자의 입력(프롬프트)에 따라 다양한 방식으로 반응한다. 생성형 AI는 단순한 정보 생성 도구를 넘어 창의적이고 혁신적인 콘텐츠 제작을 지원하는 도구로 발전하고 있다. 이를 통해 마케팅, 예술, 교육, 헬스케어 등 다양한 분야에서 활발히 응용되고 있다.

대한민국의 '인공지능 발전과 신뢰 기반 조성 등에 관한 기본법'은 "입력한 데이터의 구조와 특성을 모방하여 글, 소리, 그림, 영상, 그 밖의 다양한 결과물을 생성하는 인공지능시스템"이라고 정의한다.

2. 특징

경상남도청 '새로운 시작'[2]

데이터 원본을 통한 학습으로 소설, 이미지, 비디오, 코딩, 음악, 미술 등 다양한 콘텐츠 생성에 이용된다. 2022년 그림 인공지능의 등장으로 주목도가 높아졌으며, 해외에서 미드저니, ChatGPT 등 여러 모델들을 잇달아 공개하면서 화제의 중심이 되었다.

트랜스포머 기반의 인공신경망을 활용한다. 사실 기반이 되는 이론인 Attention Is All You Need는 2017년도에 발표되었으나, 이 이론을 활용한 인공지능 어플리케이션의 성능이 매우 뛰어나다는 사실이 밝혀지면서 2022년경부터 본격적으로 유명해지기 시작했다.

보통 딥러닝 인공지능은 학습 혹은 결과 출력 전 원본 자료를 배열 자료형[3] 숫자 데이터로 변환하는 인코딩 과정이 중요한데, 생성 AI의 경우 인공지능의 출력 데이터를 역으로 그림, 글 등의 원하는 형태로 변환시켜주는 디코딩 과정 또한 필요하다.

사실상 인공지능의 대중화를 이끈 기술로써, 해당 기술이 인공지능에 대한 사람들의 전반적인 인식을 매우 크게 바꿔놓았다고 해도 과언이 아니다. 물론 모든 기술이 그렇듯이 사회에 긍정적인 영향만 끼치지는 않았고, 학습 과정에서 생기는 저작권 침해 논란과 기술적 실업, 사기같은 범죄에 악용, 가짜뉴스 및 허위정보 양산 같은 인공지능의 부정적인 면도 본격적으로 드러나고 있다. 자세한 내용은 인공지능/논란, 그림 인공지능/논란 및 사건 사고, 딥페이크 문서 참조.

3. 종류

3.1. 텍스트 인공지능

3.1.1. 소설형 인공지능

NovelAI [4]
AI Dungeon
AI 노벨리스트: 일본에서 개발된 소설 작성 인공지능 사이트. NAI에 비해 소설 작성이 간편한 편이다.

3.1.2. 대화형 인공지능

자세한 내용은 대화형 인공지능 문서 참고하십시오.

3.1.3. 인공지능 검색 엔진

자세한 내용은 인공지능 검색 엔진 문서 참고하십시오.

3.2. 이미지 인공지능 (Text to Image, Image to Image)

자세한 내용은 그림 인공지능 문서 참고하십시오.

자세한 내용은 분류:그림 인공지능/소프트웨어 문서 참고하십시오.

3.3. 대화형 음성 인공지능

자세한 내용은 대화형 음성 인공지능 문서 참고하십시오.

3.3.1. Text to Speech

3.3.2. Speech to Speech

GPT-4o

3.4. 비디오 인공지능 (Text to Video/Image to Video)

AI 스튜디오 페르소 : 이스트소프트 에서 만든 동영상 생성형 AI
Runway Gen-1, Gen-2, Gen-3
Lumiere
Sora
Veo
kling [5]
Hailuo AI
Hailuo AI Free

3.5. 작곡 · 음악 생성 인공지능

Suno
Udio
이봄 : 광주과학기술원 제작.
AIVA
SOUNDRAW
KEENEAT 키닛 : 칠로엔 제작
Mix.audio : 뉴튠 제작.
포자랩스

viodio : 인공지능 기술로 만들어진 배경음악 구독 서비스
Laive : 배경 음악, 보컬 음악(가사 생성 및 재합성) 생성 서비스

3.6. 효과음 인공지능

OptimizerAI

3.7. 코딩 인공지능

3.8. 단백질 구조 예측 인공지능

3.9. 멀티모달 인공지능(LMM)

자세한 내용은 멀티모달 모델 문서 참고하십시오.
멀티모달 인공지능은 텍스트, 이미지, 영상, 음성 등 다양한 데이터 모달리티를 함께 고려하여 서로의 관계성을 학습 및 표현하는 기술이다. 따라서 멀티모달 인공지능은 하나의 모달리티를 활용하는 것보다 다양한 작업을 수행할 수 있다.

3.10. 물리엔진

genesis

3.11. 인공지능 로봇(Text to Action)

자세한 내용은 인공지능 로봇 문서 참고하십시오.
한동안 인공지능을 로봇에 적용하려는 시도는 비전 인식 모델이나 LLM을 로봇에 삽입하는 정도로 그쳐 인공지능 로봇이라고 부르기 무색할 정도였다. 대중들은 아메카나 보스턴 다이내믹스의 아틀라스처럼 퍼포먼스가 좋은 로봇을 인공지능 로봇이라고 부르기도 했으나 해당 로봇들은 사실 LLM에 껍데기를 씌운 것이거나 인공지능 자체가 아예 개입하지 않은 순수 로봇공학의 산물로서 인공지능 로봇이라고 하기가 어렵다. 그러나 2017년 처음 개발되어 딥러닝 필드에서 일대 파란을 일으킨 트랜스포머 아키텍쳐는 결국 로봇공학의 영역에도 여지없이 손을 뻗었으며 2023년을 기점으로 트랜스포머 기반 딥러닝 네트워크를 엔드 투 엔드(end-to-end)로 적용하려는 시도가 빅테크 기업 및 실리콘밸리 스타트업의 주도로 연달아 성공하게됨으로서 인공지능 로봇의 시대가 열렸다.

3.12. 오디오 생성 인공지능

가우디오랩 FALL-E

[1] 다만 오해는 하지 말아야 할 게 우리가 흔히 생각하는 인간처럼 스스로 사고하는 인공지능은 절대 아니다. 생성형 AI는 응용통계학 기반으로 기존 데이터에서 변주와 혼합 아래 산출물을 생성하기에 일종의 '데이터 합성 프로그램'이 정확하다.[2] 작곡, 작사, 애니메이션 모두 생성형 AI가 사용되었다.[3] 보통 텐서 자료형을 정의해 많이 이용한다.[4] 이 사이트의 또 다른 기능인 그림 인공지능이 더 유명하다. 자세한 것은 NovelAI/이미지 제네레이터 문서를 참고하자.[5] 중국판 Sora라고 불린다.