최근 수정 시각 : 2024-11-11 19:31:36

생성형 인공지능


생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
유니모달 모델 기반
<colkeepall> 텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI Novelist · GPTRPG
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok · Xtion AI(액션 AI)
[[언어 모델|
언어모델
]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · o1 · LLaMA · Gemma · Claude · Phi · Exaone · OpenELM
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin · Phind
이미지 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
[[영상 인공지능|
영상
]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
[[모델링|
모델링
]] LATTE3D
오디오
소리
[[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno · Stable Audio · Udio · AIVA · SOUNDRAW · keeneat · Mix.audio · vio.dio
멀티모달 모델 기반
대화형
+이미지
Exaone 3.0 · Samsung Gauss
+음성/이미지
GPT-4o · GPT-5 · Gemini
+에이전트
Galaxy AI · Claude 3.5 Sonnet
행위
동작
[[지능형 에이전트|
에이전트
]] Apple Intelligence · Project Astra · Google Jarvis
[[인공지능 로봇|
체화
]] Tesla optimus · Google RT-X · Project Gr00t
}}}}}}}}}

1. 개요2. 상세3. 종류
3.1. 텍스트 인공지능3.2. 이미지 인공지능 (Text to Image)3.3. 대화형 음성 인공지능
3.3.1. Text to Speech3.3.2. Speech to Speech
3.4. 비디오 인공지능 (Text to Video/3D)3.5. 작곡 · 음악 생성 인공지능3.6. 코딩 인공지능3.7. 단백질 구조 예측 인공지능3.8. 멀티모달 인공지능(LMM)3.9. 인공지능 로봇(Text to Action)3.10. 오디오 생성 인공지능

1. 개요

Generative AI

생성형 인공지능 또는 생성형 AI는 프롬프트에 대응하여 텍스트, 이미지, 기타 미디어를 생성할 수 있는 약인공지능으로, 단순히 기존 데이터를 분석하는 것이 아닌, 새로운 콘텐츠를 만드는 데 초점을 맞춘 인공지능 분야를 말한다.[1]

2. 상세

경상남도청 '새로운 시작'[2]
데이터 원본을 통한 학습으로 소설, 이미지, 비디오, 코딩, 음악, 미술 등 다양한 콘텐츠 생성에 이용된다. 2022년 그림 인공지능의 등장으로 주목도가 높아졌으며, 해외에서 미드저니, ChatGPT 등 여러 모델들을 잇달아 공개하면서 화제의 중심이 되었다.

트랜스포머 기반의 인공신경망을 활용한다. 사실 기반이 되는 이론인 Attention Is All You Need는 2017년도에 발표되었으나, 이 이론을 활용한 인공지능 어플리케이션의 성능이 매우 뛰어나다는 사실이 밝혀지면서 2022년경부터 본격적으로 유명해지기 시작했다.

보통 딥러닝 인공지능은 학습 혹은 결과 출력 전 원본 자료를 배열 자료형[3] 숫자 데이터로 변환하는 인코딩 과정이 중요한데, 생성 AI의 경우 인공지능의 출력 데이터를 역으로 그림, 글 등의 원하는 형태로 변환시켜주는 디코딩 과정 또한 필요하다.

사실상 인공지능의 대중화를 이끈 기술로써, 해당 기술이 인공지능에 대한 사람들의 전반적인 인식을 매우 크게 바꿔놓았다고 해도 과언이 아니다. 몰론 모든 기술이 그렇듯이 사회에 긍정적인 영향만 끼치지는 않았고, 학습 과정에서 생기는 저작권 침해 논란과 기술적 실업, 사기같은 범죄에 악용, 가짜뉴스 및 허위정보 양산 같은 인공지능의 부정적인 면도 본격적으로 드러나고 있다. 자세한 내용은 인공지능/논란, 그림 인공지능/논란 및 사건 사고, 딥페이크 문서 참조.

3. 종류

3.1. 텍스트 인공지능

3.1.1. 소설형 인공지능

3.1.2. 대화형 인공지능

파일:상세 내용 아이콘.svg   자세한 내용은 대화형 인공지능 문서
번 문단을
부분을
참고하십시오.

3.1.3. 인공지능 검색 엔진

파일:상세 내용 아이콘.svg   자세한 내용은 인공지능 검색 엔진 문서
번 문단을
부분을
참고하십시오.

3.2. 이미지 인공지능 (Text to Image)

파일:상세 내용 아이콘.svg   자세한 내용은 그림 인공지능 문서
번 문단을
부분을
참고하십시오.
파일:상세 내용 아이콘.svg   자세한 내용은 분류:그림 인공지능/소프트웨어 문서
번 문단을
부분을
참고하십시오.

ai5가지비교

3.3. 대화형 음성 인공지능

파일:상세 내용 아이콘.svg   자세한 내용은 대화형 음성 인공지능 문서
번 문단을
부분을
참고하십시오.

3.3.1. Text to Speech

3.3.2. Speech to Speech

3.4. 비디오 인공지능 (Text to Video/3D)

3.5. 작곡 · 음악 생성 인공지능

3.6. 코딩 인공지능

3.7. 단백질 구조 예측 인공지능

3.8. 멀티모달 인공지능(LMM)

파일:상세 내용 아이콘.svg   자세한 내용은 멀티모달 모델 문서
번 문단을
부분을
참고하십시오.
멀티모달 인공지능은 텍스트, 이미지, 영상, 음성 등 다양한 데이터 모달리티를 함께 고려하여 서로의 관계성을 학습 및 표현하는 기술이다. 따라서 멀티모달 인공지능은 하나의 모달리티를 활용하는 것보다 다양한 작업을 수행할 수 있다.

3.9. 인공지능 로봇(Text to Action)

파일:상세 내용 아이콘.svg   자세한 내용은 인공지능 로봇 문서
번 문단을
부분을
참고하십시오.
한동안 인공지능을 로봇에 적용하려는 시도는 비전 인식 모델이나 LLM을 로봇에 삽입하는 정도로 그쳐 인공지능 로봇이라고 부르기 무색할 정도였다. 대중들은 아메카나 보스턴 다이내믹스의 아틀라스처럼 퍼포먼스가 좋은 로봇을 인공지능 로봇이라고 부르기도 했으나 해당 로봇들은 사실 LLM에 껍데기를 씌운 것이거나 인공지능 자체가 아예 개입하지 않은 순수 로봇공학의 산물로서 인공지능 로봇이라고 하기가 어렵다. 그러나 2017년 처음 개발되어 딥러닝 필드에서 일대 파란을 일으킨 트랜스포머 아키텍쳐는 결국 로봇공학의 영역에도 여지없이 손을 뻗었으며 2023년을 기점으로 트랜스포머 기반 딥러닝 네트워크를 엔드 투 엔드(end-to-end)로 적용하려는 시도가 빅테크 기업 및 실리콘밸리 스타트업의 주도로 연달아 성공하게됨으로서 인공지능 로봇의 시대가 열렸다.

3.10. 오디오 생성 인공지능


[1] 다만 오해는 하지 말아야할게 우리가 흔히 생각하는 인간처럼 스스로 사고하는 인공지능은 절대 아니다. 생성형 AI는 응용통계학 기반으로 기존 데이터에서 변주와 혼합 아래 산출물을 생성하기에 일종의 '데이터 합성 프로그램'이 정확하다.[2] 작곡, 작사, 애니메이션 모두 생성형 AI가 사용되었다.[3] 보통 텐서 자료형을 정의해 많이 이용한다.[4] 중국판 Sora라고 불린다.