Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
논문 링크 📝 Janus: 두 얼굴의 인코더로 멀티모달 이해 + 생성의 딜레마를 깬 1.3 B 모델 한 줄 요약 (TL;DR) Janus는 멀티모달 이해와 이미지 생성에 요구되는 서로 다른 표현 ― 고차원 semantic vs. 저차원 texture …
30 분
2410.13848v1
Multimodal Learning
Vision-Language Model
Dual Encoder
Image Generation
Unified Transformer
VLM
Janus