최근 수정 시각 : 2024-04-22 10:21:27

생성형 인공지능


생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI 노벨리스트
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI
[[언어 모델|
언어모델
]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · GPT-5 · LLaMA · Gemma · Claude
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin
그림/영상 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · Gaugan2 · Dream by WOMBO · Adobe Firefly
[[영상|
영상
]] Stable Video · Sora · Lumiere · Runway AI
[[모델링|
모델링
]] LATTE3D
오디오/소리 [[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno AI · Stable Audio · Udio · AIVA · SOUNDRAW · Mix.audio · vio.dio
멀티모달 [[멀티모달 모델|
멀티모달
]] 삼성 가우스 · Gemini
행위/동작 [[인공지능 로봇|
로봇
]] Robot Operating Syetem(ROS) · Google RT-X · 피규어 01 · 프로젝트 그루트
}}}}}}}}}

1. 개요2. 상세3. 종류
3.1. 텍스트 인공지능3.2. 그림 인공지능 (Text to Image)3.3. 음성 인공지능 (Text to Speech)3.4. 동영상 인공지능 (Text to Video/3D)3.5. 작곡 인공지능3.6. 코딩 인공지능3.7. 단백질 구조 예측 인공지능3.8. 멀티모달 인공지능(LMM)3.9. 인공지능 로봇(Text to Action)3.10. 오디오 생성 인공지능

1. 개요

Generative AI

생성형 인공지능 또는 생성형 AI는 프롬프트에 대응하여 텍스트, 이미지, 기타 미디어를 생성할 수 있는 일종의 인공지능 시스템이다.

단순히 기존 데이터를 분석하는 것이 아닌, 새로운 콘텐츠를 만드는 데 초점을 맞춘 인공지능 분야를 말한다. 2022년경부터 본격적으로 유명해지기 시작했다.

2. 상세

경상남도청 '새로운 시작'[1]
데이터 원본을 통한 학습으로 소설, 이미지, 비디오, 코딩, 음악, 미술 등 다양한 콘텐츠 생성에 이용된다. 2022년 그림 인공지능의 등장으로 주목도가 높아졌으며, 해외에서 미드저니, 챗GPT 등 여러 모델들을 잇달아 공개하면서 화제의 중심이 되었다.

보통 딥러닝 인공지능은 학습 혹은 결과 출력 전 원본 자료를 배열 자료형[2] 숫자 데이터로 변환하는 인코딩 과정이 중요한데, 생성 AI의 경우 인공지능의 출력 데이터를 역으로 그림, 글 등의 원하는 형태로 변환시켜주는 디코딩 과정 또한 필요하다.

사실상 인공지능의 대중화를 이끈 기술로써, 해당 기술이 인공지능에 대한 사람들의 전반적인 인식을 매우 크게 바꿔놨다고 해도 과언이 아니다.

3. 종류

3.1. 텍스트 인공지능

3.1.1. 소설형 인공지능

3.1.2. 대화형 인공지능

파일:상세 내용 아이콘.svg   자세한 내용은 대화형 인공지능 문서
번 문단을
부분을
참고하십시오.

3.1.3. 인공지능 검색 엔진

파일:상세 내용 아이콘.svg   자세한 내용은 인공지능 검색 엔진 문서
번 문단을
부분을
참고하십시오.

3.2. 그림 인공지능 (Text to Image)

파일:상세 내용 아이콘.svg   자세한 내용은 그림 인공지능 문서
번 문단을
부분을
참고하십시오.
파일:상세 내용 아이콘.svg   자세한 내용은 분류:그림 인공지능/소프트웨어 문서
번 문단을
부분을
참고하십시오.

3.3. 음성 인공지능 (Text to Speech)

3.4. 동영상 인공지능 (Text to Video/3D)

3.5. 작곡 인공지능

3.6. 코딩 인공지능

3.7. 단백질 구조 예측 인공지능


3.8. 멀티모달 인공지능(LMM)

파일:상세 내용 아이콘.svg   자세한 내용은 멀티모달 모델 문서
번 문단을
부분을
참고하십시오.
멀티모달 인공지능은 텍스트, 이미지, 영상, 음성 등 다양한 데이터 모달리티를 함께 고려하여 서로의 관계성을 학습 및 표현하는 기술이다. 따라서 멀티모달 인공지능은 하나의 모달리티를 활용하는 것보다 다양한 작업을 수행할 수 있다.

3.9. 인공지능 로봇(Text to Action)

파일:상세 내용 아이콘.svg   자세한 내용은 인공지능 로봇 문서
번 문단을
부분을
참고하십시오.
한동안 인공지능을 로봇에 적용하려는 시도는 비전 인식 모델이나 LLM을 로봇에 삽입하는 정도로 그쳐 인공지능 로봇이라고 부르기 무색할 정도였다. 대중들은 아메카나 보스턴 다이내믹스의 아틀라스처럼 퍼포먼스가 좋은 로봇을 인공지능 로봇이라고 부르기도 했으나 해당 로봇들은 사실 LLM에 껍데기를 씌운 것이거나 인공지능 자체가 아예 개입하지 않은 순수 로봇공학의 산물로서 인공지능 로봇이라고 하기가 어렵다. 그러나 2017년 처음 개발되어 딥러닝 필드에서 일대 파란을 일으킨 트랜스포머 아키텍쳐는 결국 로봇공학의 영역에도 여지없이 손을 뻗었으며 2023년을 기점으로 트랜스포머 기반 딥러닝 네트워크를 엔드 투 엔드(end-to-end)로 적용하려는 시도가 빅테크 기업 및 실리콘밸리 스타트업의 주도로 연달아 성공하게됨으로서 인공지능 로봇의 시대가 열렸다.

3.10. 오디오 생성 인공지능


[1] 작곡, 작사, 애니메이션 모두 생성형 AI가 사용되었다.[2] 보통 텐서 자료형을 정의해 많이 이용한다.