Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
논문 링크 📝 Janus: 두 얼굴의 인코더로 멀티모달 이해 + 생성의 딜레마를 깬 1.3 B 모델 한 줄 요약 (TL;DR) Janus는 멀티모달 이해와 이미지 생성에 요구되는 서로 다른 표현 ― 고차원 semantic vs. 저차원 texture ― 의 “표현 충돌”을 듀얼 비전 인 …
30 분