멀티모달 모델

생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"	유니모달 모델 기반
<colkeepall> 텍스트	[[소설\| 소설 ]] NovelAI · AI Dungeon · AI Novelist
대화형	[[챗봇\| 챗봇 ]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
대화형	[[언어 모델\| 언어모델 ]] GPT · LLaMA · Gemma · Claude · Phi · Exaone · OpenELM · Qwen · DeepSeek
코드	[[코드#컴퓨터 소프트웨어\| 코드 ]] GitHub Copilot · Devin · Phind · DeepSeek
이미지	[[그림 인공지능\| 그림 ]] Midjourney · DALL·E · Imagen · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly
	[[영상 인공지능\| 영상 ]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Kling AI
	[[모델링\| 모델링 ]] LATTE3D
오디오 소리	[[음성\| 음성 ]] A.I.VOICE · DeepVocal · Voice Engine
오디오 소리	[[음악\| 음성/음악 ]] Suno · Stable Audio · Udio · AIVA
멀티모달 모델 기반
대화형	+이미지 Exaone 3.5 · Samsung Gauss
	+음성/이미지 GPT-4o · ~~GPT-5~~ · Gemini · o1 · o3 · DeepSeek
	+에이전트 Galaxy AI · Claude 3.7 Sonnet
행위 동작	[[지능형 에이전트\| 에이전트 ]] Apple Intelligence · Project Astra · Operator · ~~Google Jarvis~~
행위 동작	[[인공지능 로봇\| 체화 ]] Tesla optimus · Google RT-X · Project Gr00t	}}}}}}}}}

Multimodal Model

1. 개요2. 종류

2.1. Early Fusion2.2. Late Fusion2.3. Joint Fusion

3. 언어 모델과 멀티모달 모델의 차이점4. 멀티모달 러닝

4.1. 이미지-텍스트

4.1.1. CLIP4.1.2. VQA4.1.3. Zero-Shot Learning

4.2. 다중 모달리티

4.2.1. ImageBind4.2.2. Meta Transformer

5. 멀티모달 모델의 필요성6. 현황

6.1. 미국6.2. 한국

7. 주요 멀티모달 모델8. 비판 및 문제점

8.1. 저작권 문제8.2. 편향성

[clearfix]

1. 개요

멀티모달 모델(Multimodal Model)은 텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 데이터(모달리티)를 함께 고려하여 서로의 관계성을 학습 및 처리하는 인공지능이다. 이 중 상대적으로 크기가 큰 모델을 "거대 멀티모달 모델" 혹은 "대형 멀티모달 모델(LMM(Large Multimodal Model))"이라고 부른다.

2. 종류

멀티모달 모델은 크게 Early Fusion, Late Fusion, Joint Fusion 3가지로 나뉜다. #

2.1. Early Fusion

Early Fusion은 종류가 다른 두 가지 데이터를 하나의 데이터로 먼저 합친 이후 모델 학습을 시키는 경우다. 이 때 형식이 다른 두 데이터를 합치기 위해서는 다양한 데이터 변환이 이루어진다. 원시데이터를 그대로 융합해도 괜찮고, 전처리를 한 이후에 융합해도 상관없다.

2.2. Late Fusion

Late Fusion은 종류가 다른 두 가지 데이터를 각각 다른 모델에 학습시킨 이후 나온 결과를 융합하는 방법으로, 기존의 앙상블모델이 작동하는 방식과 비슷하다.

2.3. Joint Fusion

Joint Fusion은 두개의 모달리티 데이터를 동시에 학습시키지 않고 내가 원하는 모델의 깊이에서 모달리티를 병합할 수 있는 유연성을 가지고 있다. 하나의 모달리티로 모델학습을 진행하다가 모델학습의 마지막 레이어 전에 다른 모달리티와 융합하는 방법으로, 이 과정을 end-to-end learning이라고도 한다.

3. 언어 모델과 멀티모달 모델의 차이점

언어 모델과 멀티모달 모델의 차이점은 다음과 같다.

언어모델은 텍스트 데이터 처리와 생성에 특화돼 있다. 본질적으로는 텍스트 외의 데이터는 처리하지 않으며, 텍스트 외의 데이터를 처리하는 멀티모달 기능을 언어모델에서 사용하기 위해서는 text to image나 text to audio 등 다른 유형의 데이터를 학습한 모델을 불러와야 한다.
반면 멀티모달 모델은 다양한 형식의 데이터를 통시에 학습한다. 따라서 하나의 모델에서 여러 가지 데이터 입출력을 받아들일 수 있으며, 이에 따라 언어모델보다 더 우수한 품질의 멀티모달 기능을 사용할 수 있다.
멀티모달 모델은 다양한 유형의 데이터에 대한 정보를 이해하고 통합해야 하는 작업에 주로 사용된다. 반면 언어모델은 주로 텍스트 중심의 작업에 사용된다.
멀티모달 모델은 언어모델에 비해 더 다양한 데이터 유형을 받아들일 수 있으므로 활용도가 더 높다.

4. 멀티모달 러닝

멀티모달 러닝(또는 멀티모달 학습)은 멀티모달 모델을 학습시키는 방법이다. 멀티모달 러닝은 다양한 유형의 데이터(모달리티)를 조합하여 사용하는 딥 러닝의 한 유형이라고 볼 수 있다. 멀티 모달 러닝의 학습 데이터는 '텍스트와 pixel intensity(화소 강도) 및 주석 태그로 구성된 이미징 데이터를 결합한 데이터'와 같이 다양한 유형의 데이터가 결합되어 있다. 이러한 유형의 학습 데이터는 근본적으로 일반적인 한 가지 유형의 데이터로만 이루어진 다른 데이터들과는 다른 통계적 특성을 가지고 있기 때문에 이를 결합하는 것은 간단하지 않아 구현에 상당히 고도화된 전문 지식 및 방법이 필요하다.

아래 문단들은 몇가지 멀티모달 러닝의 방법에 관한 내용이다.

4.1. 이미지-텍스트

4.1.1. CLIP

자세한 내용은 CLIP 모델 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[CLIP 모델#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
의 [[CLIP 모델#|]][[CLIP 모델#|]] 부분을

참고하십시오.

CLIP은 OpenAI에서 개발한 언어-이미지 멀티모달 AI 모델로 대규모 웹 언어-이미지 병렬 데이터셋에서 언어와 이미지 간의 상호 작용을 학습하는 방식으로 구성되어 있다. CLIP을 이용하면 텍스트 입력 만으로도 주어진 정보에 해당하는 이미지 정보를 얻어내어 활용할 수 있으며, 반대로 이미지 입력에서 원하는 텍스트 정보를 추출할 수 있다.

4.1.2. VQA

VQA는 Vision Question Answering의 약자로, 입력 모달리티인 이미지와 관련된 질문에 대한 답을 자연어로 출력해 주는 작업이다.

fine-grained recognition

이 파스타에 있는 소스가 어떤 종류인가

commonsense reasoning

안경을 쓴 남자가 나온 사진 - 이 남자는 시력이 좋은가

knowledge base reasoning

고기가 있는 파스타 사진 - 이 파스타는 비건 파스타인가

activity recognition, object detection

4.1.3. Zero-Shot Learning

입력 이미지와 입력 이미지와의 유사도를 측정하고 싶은 텍스트 여러 개를 함께 모델에 입력하여, 해당 이미지와 가장 유사도가 높은 텍스트를 고르는 작업이다.

4.2. 다중 모달리티

4.2.1. ImageBind

Meta에서 발표한 ImageBind는 하나의 모델로 6개의 모달리티[1]를 처리할 수 있다. 텍스트 대신 이미지를 핵심 모달리티로 설정하여 학습시켰다. 6개의 모달리티를 동시에 활용하는 것이 아니라, 이미지-텍스트, 이미지-오디오와 같이 이미지와의 유사성을 높이는 방법으로 학습을 한다.

4.2.2. Meta Transformer

각 모달리티에 해당하는 데이터를 연속된 시퀀스 형태로 변환하는 Tokenizer (Data-to-sequence tokenizer)를 적절히 학습하여 하나의 모델로 처리한다.

5. 멀티모달 모델의 필요성

텍스트를 입력하고 텍스트로 답하는 LLM보다 다양한 모달리티로 입력하고 답하는 LMM의 활용 폭이 훨씬 넓다.
인공지능 로봇의 필수적인 요소로 떠오르며, 앞으로 개발될 미래형 로봇에 들어갈 핵심 기능이 되었다.
결국 언어 모델에 비해 활용도가 높고 할 수 있는 것들도 훨씬 많기 때문에, 전체 생성형 인공지능 모델 중에서 차지하는 비중이 점점 증가할 것이다.
멀티모달 모델은 단순히 공업이나 산업 분야 뿐만이 아니라 우리의 일상생활에도 큰 도움을 준다. 예를 들어, 질병 진단 시 AI가 텍스트와 의료 영상을 동시에 분석함으로써, 이전에는 어려웠던 진단을 더 정확하고 신속하게 해낼 수 있다.

6. 현황

6.1. 미국

구글에서 멀티모달 모델인 Gemini를 내놓는 한편, OpenAI에서 GPT-4모델에 이미지 기능을 추가한 GPT-4V 모델을 내놓는 등 해외 대기업 및 인공지능 업계 선두주자들은 대부분 멀티모달 모델 개발에 뛰어들고 있다. 멀티모달 모델의 수요가 지속적으로 증가하는 만큼 멀티모달 모델 개발 경쟁은 더욱 가속화될 것으로 보인다.

6.2. 한국

국내에서도 LG 액사원이 개발되는가 하면, 네이버의 HyperCLOVA X에 멀티모달 기능이 추가되는 등 멀티모달 인공지능 분야에 점점 관심을 가지고 있는 추세이다. 하지만 국내 멀티모달 모델들은 자금력의 차이, 언어별 데이터세트의 크기 차이 등의 문제로 미국, 중국 개발사의 모델들에 비해 아직 성능 면에서 뒤쳐지는 것이 현실이다.

7. 주요 멀티모달 모델

LLaVA

8. 비판 및 문제점

8.1. 저작권 문제

8.2. 편향성

멀티모달 모델은 언어모델과 같은 모델에 비해 편향적일 가능성이 훨씬 크다. 학습 과정에서 편향적인 데이터가 들어갈 경우 모델 또한 편향적인 결과를 내놓을 가능성이 높다.
실제로 구글의 멀티모달 모델인 Gemini는 지나치게 PC주의적인 결과물로 많은 논란을 빚었다.

[1] 이미지, 텍스트, 오디오, 깊이맵, thermal, IMU

멀티모달 모델

1. 개요

2. 종류

2.1. Early Fusion

2.2. Late Fusion

2.3. Joint Fusion

3. 언어 모델과 멀티모달 모델의 차이점

4. 멀티모달 러닝

4.1. 이미지-텍스트

4.1.1. CLIP

4.1.2. VQA

4.1.3. Zero-Shot Learning

4.2. 다중 모달리티

4.2.1. ImageBind

4.2.2. Meta Transformer

5. 멀티모달 모델의 필요성

6. 현황

6.1. 미국

6.2. 한국

7. 주요 멀티모달 모델

8. 비판 및 문제점

8.1. 저작권 문제

8.2. 편향성

분류