Janus Pro https://www.janusproai.net/
개요
Janus Pro는 DeepSeek에서 개발한 통합 다모달 이해 및 생성 모델입니다. 이 모델은 데이터와 모델의 확장을 통해 다모달 이해와 생성을 통합하는 데 중점을 두고 있습니다.
구성
Janus Pro는 주로 다음 세 단계로 구성됩니다.
1. 초기 적응 및 이미지 헤드 훈련
목표
이미지와 텍스트 특성을 언어 모델과 호환되는 통합 잠재 공간으로 매핑하는 어댑터를 훈련하고, 고정된 LLM 파라미터를 사용하여 이미지 생성 프로세스를 안정화합니다.
기술
ImageNet을 사용하여 카테고리 기반의 픽셀 종속 모델링을 수행합니다. 예를 들어 “태양꽃”과 같은 카테고리 이름을 사용하여 모델이 단순하지만 의미론적으로 올바른 이미지를 생성하도록 안내합니다.
장점
이전 모델인 DALL-E 3는 초기 이미지 생성 단계에서 노이즈로 인해 어려움을 겪었습니다. Janus Pro는 Stage I를 연장하여 이 문제를 해결하여 후속 단계에서 더 나은 안정성을 제공합니다.
2. 밀집된 서술적 프롬프트와 통합 사전 훈련
목표
텍스트와 이미지 데이터로 통합 자기 회귀 모델을 훈련하고, 여러 데이터셋에 분산되어 있는 대신에 밀집된 텍스트-이미지 데이터에만 집중하여 효율성을 제거합니다.
기술
고품질의 합성 미학 데이터와 실제 데이터를 1:1 비율로 결합하여 훈련의 다양성과 품질을 향상시킵니다. 합성 데이터는 실제 데이터셋에서 흔히 발견되는 노이즈와 불일치를 피할 수 있으므로 더 빠른 수렴을 보장합니다.
장점
DALL-E 3와 같은 모델은 실제 데이터에 크게 의존하여 불일치가 발생하기 쉽습니다. Janus Pro는 합성 데이터를 사용하여 이 문제를 해결하여 더 안정적이고 미학적으로 아름다운 출력을 생성합니다.
3. 다모달, 텍스트 전용 및 시각 데이터에 대한 fine-tuning
목표
시각 질문 답변, 상세한 텍스트-이미지 정렬 및 다모달 대화와 같은 전문화된 다모달 태스크에서 성능을 향상시키고, 명령어 실행(예: 텍스트-이미지 태스크)과 창의적인 생성 태스크를 위해 모델을 fine-tuning합니다.
기술
다모달 데이터, 순수 텍스트 데이터, 텍스트-이미지 데이터 간의 데이터 비율을 5:1:4로 조정하여 다모달 이해와 생성 태스크 간의 균형을 유지합니다.
장점
다양한 데이터셋에서 fine-tuning을 통해 Janus Pro는 실제 태스크에서 더 유연하게 대응할 수 있습니다. 예를 들어, 지시에 따른 그래픽 생성이나 다모달 대화를 처리하는 데에서 DALL-E가 어려움을 겪는 분야에서 유리합니다.
특징
Janus Pro는 DALL-E와 같은 다른 최첨단 모델보다 더 나은 성능을 발휘하는 데에는 분리된 아키텍처를 통해 더 나은 태스크 전문화를 제공하는 것이 한몫합니다.
[분류:생성형 인공지능]]