๐ Janus: ๋ ์ผ๊ตด์ ์ธ์ฝ๋๋ก ๋ฉํฐ๋ชจ๋ฌ ์ดํด + ์์ฑ์ ๋๋ ๋ง๋ฅผ ๊นฌ 1.3 B ๋ชจ๋ธ
ํ ์ค ์์ฝ (TL;DR)
Janus๋ ๋ฉํฐ๋ชจ๋ฌ ์ดํด์ ์ด๋ฏธ์ง ์์ฑ์ ์๊ตฌ๋๋ ์๋ก ๋ค๋ฅธ ํํ โ ๊ณ ์ฐจ์ semantic vs. ์ ์ฐจ์ texture โ ์ โํํ ์ถฉ๋โ์ ๋์ผ ๋น์ ์ธ์ฝ๋(SigLIP + VQ Tokenizer)๋ก ๋ถ๋ฆฌํจ์ผ๋ก์จ, ๋จ 1.3 B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ด ๊ธฐ์กด ๋จ์ผ-์ธ์ฝ๋ ํตํฉ ๋ชจ๋ธ๋ณด๋ค **์ดํด +41 %, FID โ8 %**๋ฅผ ๋์์ ๋ฌ์ฑํ ์ฒซ ์ฌ๋ก๋ค.
ํต์ฌ ์์ด๋์ด
ํ Transformer, ๋ ์ธ์ฝ๋ SigLIP-ViT๊ฐ ๋ฝ์ semantic ํ ํฐ๊ณผ VQ-GAN์ด ๋ฝ์ spatial ํ ํฐ์ ํ ์ํ์ค๋ก ๋ถ์ฌ ํ๋์ autoregressive LLM์ด ํ ์คํธยท์ด๋ฏธ์ง ํ ํฐ์ ๋ชจ๋ ์์ธกํ๋ค.
๋ฐฐ๊ฒฝ: ๊ทธ๋ค์ด ํด๊ฒฐํ ๋ฌธ์
ํตํฉ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ(Chameleon, Show-o ๋ฑ)์ **โํ๋์ ๋น์ ์ธ์ฝ๋โ**๋ก ์ดํด์ ์์ฑ์ ๋ชจ๋ ์ฒ๋ฆฌํ๋ค. ๊ทธ๋ฌ๋
์๊ตฌ | ์ดํด (Q&A) | ์์ฑ (T2I) |
---|---|---|
ํํ ์ ์๋ | ์ถ์ยท๊ด๊ณยทํ ์คํธ | ํฝ์ ยท์ง๊ฐยท์์น |
์ต์ ์ธ์ฝ๋ | CLIPยทSigLIP | VQยทCNNยทDiffusion |
โฆ์ฆ, ์์ถฉ๋๋ ๋ ํํ์ ํ ์ธ์ฝ๋๊ฐ ๋ ์์ผ๋ฉด์ ์ดํด ์ฑ๋ฅ์ด ํฌ๊ฒ ํฌ์๋์๋ค.
์๋ก์ด ์ ๊ทผ๋ฒ: Janus
๊ตฌ์ฑ ์์ | ์ญํ |
---|---|
SigLIP-Large-Patch16-384 | ์ดํด์ฉ ViT (576 ํจ์น, 1024-d) |
VQ Tokenizer (ร16 downsample) | ์์ฑ์ฉ CNN ์ธ์ฝ๋ (576 ID, 512-d) |
2-์ธต MLP Adaptor ร 2 | ๋ ์ธ์ฝ๋ ์ถ๋ ฅ์ 4096-d๋ก ํฌ์ |
DeepSeek-LLM 1.3 B | ํ ์คํธยทVQ ID๋ฅผ AR ๋ฐฉ์์ผ๋ก ์์ธก |
์ต์ข
์
๋ ฅ ์ํ์ค
S = [E_txt ; A_u(SigLIP(I)) ; A_g(E_VQ(I))]
.
์๋ ์๋ฆฌ: ๊ตฌ์ฒด์ ์ธ ์์๋ก ์ดํด๋ณด๊ธฐ
์์ โ ์ดํด (QA)
- SigLIP โ [576 ํ ํฐ; โ๊ณ ์์ด, ๋นจ๊ฐ ๊ณตโ ์๋ฏธ ํฌํจ]
- Adaptor โ LLM โ โ๊ณต์ ๋นจ๊ฐ์์ ๋๋ค.โ
์์ โก ์์ฑ (T2I)
- ํ๋กฌํํธ โDraw three red hearts.โ
- LLM์ด 576 ๊ฐ์ VQ ID๋ฅผ ์์ธก
- VQ Decoder๊ฐ 384ยฒ ์ด๋ฏธ์ง ๋ณต์
- CFG 5.0์ผ๋ก ํ๋ฆฌํฐ ์
์ฑ๋ฅ ๊ฒ์ฆ: ์ฃผ์ ๊ฒฐ๊ณผ
1. ์ดํด & ์์ฑ ํ๋ ๋น๊ต (1.3 B ๋ชจ๋ธ)
๋ชจ๋ธ | MMEโ | GQAโ | GenEvalโ | COCO-FIDโ |
---|---|---|---|---|
Show-o | 949 | 48.7 | 53 % | 9.24 |
Janus | 1338 (+41 %) | 59.1 (+30 %) | 61 % | 8.53 (-8 %) |
2. Ablation โ ๋์ผ ์ธ์ฝ๋ ํจ๊ณผ
์ค์ | ์ธ์ฝ๋ | MME | COCO-FID |
---|---|---|---|
Exp-A | VQ ๋จ๋ | 949 | 8.72 |
Exp-D | SigLIP + VQ | 1338 | 8.53 |
โ ํํ ๋ถ๋ฆฌ๋ง์ผ๋ก ์ดํดยท์์ฑ ๋ชจ๋ ๋์์ ์์น.
3. ํ๋กฌํํธ ์ค์ (GenEval 6 ์์ฑ)
์์ฑ | ์ ํ๋ |
---|---|
Single Obj | 0.97 |
Counting | 0.30 (์ฝ์ ) |
Two Obj | 0.79 |
์ฐ๋ฆฌ์ ๊ด์ : ๊ฐ์ , ํ๊ณ, ๊ทธ๋ฆฌ๊ณ ์ด ์ฐ๊ตฌ๊ฐ ์ค์ํ ์ด์
๐ช ๊ฐ์
- ํธ๋ ์ด๋-์คํ ๋ถ๊ดด: ํ๋์ ์ํคํ ์ฒ๋ก ์ดํดยท์์ฑ ๋ ๊ณผ์ ๋ชจ๋ SOTA๊ธ.
- ํ๋ฌ๊ทธ์ธ ๊ตฌ์กฐ: ์ธ์ฝ๋๋ฅผ EVA-CLIP, MoVQGAN, 3D Point Cloud ๋ฑ์ผ๋ก ์์ฝ๊ฒ ๊ต์ฒด.
- ๋จ์ผ CE Loss + 3-Stage ํ์ต: ๊ตฌํยท์ฌํ์ด ๋จ์.
โ ๏ธ ํ๊ณ
- ์ ํด์๋ 384ยฒ & VQ ร16 โ ์์ ๊ฐ์ฒดยทCounting ์ค๋ฅ.
- AR T2I ์๋ โ 1 FPS (A100), ์ค์๊ฐ ์ ์ฉ์ ์ง์ฐ.
- ํ์ต ๋น์ฉ 7 ์ผ ร 128 A100 GPU.
- ์๋ฌธยท์น ๋ฐ์ดํฐ ํธํฅ, ์์ ยทํธํฅ ๋ถ์ ๋ฏธ๋น.
๐ ์ค์์ฑ
Janus๋ **โ๋ฉํฐ๋ชจ๋ฌ GPTโ**๋ก ๊ฐ๋ ํต์ฌ ๋ณ๋ชฉ โ ํตํฉ ๋ชจ๋ธ์ ํํ ์ถฉ๋ โ ์ ์ค๊ณ ํ ๋ฐฉ์ผ๋ก ์ ๊ฑฐํ๋ค. ๋ชจ๋ฐ์ผ NPUยท์จ-๋๋ฐ์ด์ค LLM ์๋์ 1 B-๊ธ ์๋ฉด ์ ๋ฌธ๊ฐ๊ฐ ์ด๋ฆด ์ ์์์ ๋ณด์ฌ์ค๋ค.
๋ค์ ๋จ๊ณ๋?: ์์ผ๋ก์ ๊ธธ
- ํ์ด๋ธ๋ฆฌ๋ ํ ํฌ๋์ด์ (16ร + 4ร) โ FID < 7 @ 512ยฒ
- AR + ๋ณ๋ ฌ Diffusion ํค๋ โ 10ร ๋น ๋ฅธ ์์ฑ
- ์ปจํ ์คํธ 16 k+ & ์ฅ๋ฌธ ๋ฉํฐ๋ชจ๋ฌ (Hydragen-style prefix)
- ๋ค๊ตญ์ดยท์ ๋ฌธ ๋๋ฉ์ธ Curriculum์ผ๋ก ํธํฅ ์ํ
- ์ ๋ชจ๋ฌ ํ๋ฌ๊ทธ์ธ: 3D, ์ค๋์ค, EEG โฆ โTransformer OSโๅ
Bottom line: Janus๋ *โ๋ ์ผ๊ตด์ ์ โ*์ด๋ผ๋ ์ด๋ฆ์ฒ๋ผ, ํ๋์ Transformer์ ๋ ๊ฐ์ง ์์ ์ ๋ถ์ฌํด ๋ฉํฐ๋ชจ๋ฌ AI์ ๋ค์ ์ฅ์ ์ด์๋ค. ์ด์ ๊ณผ์ ๋ ํด์๋ยท์๋ยท๋ค์์ฑ์ด๋ผ๋ ์ธ ๊ณ ๊ฐ๋ฅผ ์ธ์ , ์ด๋ป๊ฒ ๋๋๋๋ค.
ํ ๊ธ์ ํด๋ฆญํ๋ฉด ๋ ผ๋ฌธ์ ๋ํ ์์ธํ LLM ์ง์์๋ต ๋ด์ฉ์ ํ์ธํ ์ ์์ต๋๋ค.
โถ๏ธํด๋ฆญํ์ฌ ํผ์น๊ธฐ
ํ๋กฌํํธ 1.1.1 (์ฐ๊ตฌ์ ๊ณต๋ฐฑ)
"๋
ผ๋ฌธ์ 'Introduction'๊ณผ 'Related Work' ์น์
์ ๋ถ์ํ์ฌ, ์ด ์ฐ๊ตฌ๊ฐ ๋ช
์์ ์ผ๋ก ํด๊ฒฐํ๊ณ ์ ํ๋ ํต์ฌ์ ์ธ ์ฐ๊ตฌ ๊ณต๋ฐฑ(research gap), ๊ธฐ์กด ์ฐ๊ตฌ์ ๊ฒฐ์ ์ ํ๊ณ, ๋๋ ๋ฏธํด๊ฒฐ ์ง๋ฌธ์ด ๋ฌด์์ธ์ง ์ค๋ช
ํด ์ค. ์ ์๋ค์ด ์ค๋ช
ํ๋, ์ด ๋
ผ๋ฌธ ์ถํ ์์ ์ '์ต์ ๊ธฐ์ (state of the art)'์ ์ด๋ค ์ํ์๋์ง ์์ฝํด ์ค."
๐ ํ ์ค ์์ถ ๊ฒฐ๋ก (TL;DR)
ํํ ํตํฉ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ **โํ๋์ ๋น์ ์ธ์ฝ๋โ**๋ก ์ดํดยท์์ฑ ๋ ๊ณผ์ ๋ฅผ ๋์์ ๋ค๋ฃจ๋ ค๋ค ํํ ์ถฉ๋์ด ๋ฐ์ํด ๋ฉํฐ๋ชจ๋ฌ ์ดํด ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง๋ค. Janus๋ ์ฒ์์ผ๋ก ๋น์ ์ธ์ฝ๋ฉ์ ์ด์คํ(Decoupling) ํ์ฌ ๋ฌธ์ ์ ์ ๊ทผ๋ณธ์ ์ผ๋ก ํด๊ฒฐํ๊ณ , 1.3 B ๋ชจ๋ธ๋ก๋ ๊ธฐ์กด ๋จ์ผ ์ธ์ฝ๋ ํตํฉ ๋ชจ๋ธ๋ณด๋ค ์ดํด ๋ฒค์น๋งํฌ๋ฅผ ์ต๋ +41 % (MME) ํฅ์์ํค๋ฉฐ, ๋์์ ์์ฑ ํ์ง(FID 8.53@COCO-30K)๋ ์ ์งํ๋ค.
1. ํต์ฌ ์ฐ๊ตฌ ๊ณต๋ฐฑ (Research Gap)
๊ตฌ๋ถ | ๊ธฐ์กด ์ ๊ทผ | ๋ฌธ์ ์ | Janus๊ฐ ๊ฒจ๋ฅํ ๊ณต๋ฐฑ |
---|---|---|---|
์ธ์ฝ๋ ๊ตฌ์ฑ | ํ๋์ ๋น์ ์ธ์ฝ๋๋ฅผ ์ดํดยท์์ฑ์ ๊ณต๋ ์ฌ์ฉ ex) Chameleon, VILA-U, Show-o | ์๋ก ๋ค๋ฅธ ์ ๋ณด ์
์๋(granularity) ์๊ตฌ โ ํํ ๊ณต๊ฐ ์ถฉ๋ โ ์ดํด ์ฑ๋ฅ ๊ธ๋ฝยทํํ ํ์ | ์ดํด์ฉ SigLIP ์ธ์ฝ๋ + ์์ฑ์ฉ VQ ํ ํฌ๋์ด์ ์ด์ํ โ ์ถฉ๋ ์ ๊ฑฐ |
ํตํฉ ๋ฐฉ์ | ์ดํด ๋ชจ๋ธ + ์ธ๋ถ ํ์ฐ(Emu ๋ฑ) โ โ๊ฐ์งโ ํตํฉ | LLM ๋ด๋ถ๋ ์ด๋ฏธ์ง ์์ฑ ๋ถ๊ฐ, diffusion ์ฑ๋ฅ์ ์์กด | ๋จ์ผ AR Transformer๊ฐ ํ ์คํธยท์ด๋ฏธ์ง ํ ํฐ ๋ชจ๋ ์ง์ ์์ฑ |
ํจ์จ์ฑยทํ์ฅ์ฑ | ์ธ์ฝ๋ ์ ํ ์ ์ฝ(ํ์ชฝ์ ๋ง์ถ๋ฉด ๋ค๋ฅธ์ชฝ ์ํด) | ์์ ๋ณ ์ต์ ์ธ์ฝ๋๋ฅผ ๋ชป ์ฌ์ฉ | ๋์ปคํ๋ง์ผ๋ก ์ ์ฐํ ์ธ์ฝ๋ ๊ต์ฒดยท๋ชจ๋ฌ ์ถ๊ฐ ๊ฐ๋ฅ (์: EEG, Point Cloud) |
โ๊ธฐ์กด ํตํฉ ๋ชจ๋ธ์ ๋น์ ์ธ์ฝ๋๊ฐ ๊ณ ์ฐจ่ฏญ์่ฏญ์ ์ถ์ ํํ(์ดํด)๊ณผ ์ ์ฐจ์ ๊ณต๊ฐ์ ์ธ๋ถ(์์ฑ)๋ผ๋ ์์ถฉ ์๊ตฌ๋ฅผ ๋ชจ๋ ๋ง์กฑํด์ผ ํด์ ๋ณธ์ง์ ๊ฐ๋ฑ์ด ๋ถ๊ฐํผํ๋ค.โ
Janus๋ โ์ธ์ฝ๋ ์ถฉ๋ ์์ฒด๋ฅผ ์ ๊ฑฐโ ํ๋ ์ฒซ ์๋๋ก, ํตํฉ ๊ตฌ์กฐ๋ฅผ ์ ์งํ๋ฉด์๋ ๊ฐ ๊ณผ์ ์ ์ต์ ํ๋ ํํ์ ์ ๊ณตํ ์ ์๋ ์ฐ๊ตฌ ๋น์นธ์ ๋ฉ์ด๋ค.
2. ๊ธฐ์กด ์ฐ๊ตฌ์ ๊ฒฐ์ ์ ํ๊ณ
๋จ์ผ ์ธ์ฝ๋ ํตํฉ ๋ชจ๋ธ (Chameleon 7 B, Show-o 1.3 B, VILA-U 7 B)
- ์ดํด ๋ฒค์น๋งํฌ์์ LLaVA-v1.5 7 B ๋๋น ์ต๋ โ15 โผ โ20 pt ์ฑ๋ฅ ์ด์ธ ๋ณด๊ณ .
- Ablation ๊ฒฐ๊ณผ: ๋์ผ ์ธ์ฝ๋๋ก ์ดํดยท์์ฑ์ ํจ๊ป ํ์ตํ๋ฉด ์ดํด ์ฑ๋ฅ์ด **35 โ 26 ์ (โ26 %)**์ผ๋ก ๊ธ๋ฝ.
โํด ํธ์ถโ ๋ฐฉ์ (Emu, LaVIT ๋ฑ)
- LLM์ด diffusion ๋ชจ๋ธ์ ์ธ๋ถ ๋๊ตฌ๋ก ํธ์ถ โ ์ง์ ํ end-to-end ํตํฉ ์๋.
- ์์ฑ ํ์ง์ diffusion SOTA์ ์ข ์๋๊ณ , ํ์ดํ๋ผ์ธ ๋ณต์กยท์ถ๋ก ์ง์ฐ.
์์ ํนํ ๋ชจ๋ธ
- ์ดํด ์ ์ฉ(LLaVA-v1.5 7 B, Qwen-VL 7 B)๊ณผ ์์ฑ ์ ์ฉ(SDXL 2.6 B ๋ฑ)์ด ๊ฐ๊ฐ๋ง ์ํจ โ ๋ฒ์ฉ์ฑ ๊ฒฐ์ฌ ๋ฐ ์ค๋ณต ํ๋ผ๋ฏธํฐ.
3. ๋ ผ๋ฌธ ์ถํ ์์ (2024 Q4) State-of-the-Art ์ ๋ฆฌ
๋ถ๋ฅ | ๋ํ ๋ชจ๋ธ | ํ๋ผ๋ฏธํฐ | ๋น์ ์ธ์ฝ๋ ์ ๋ต | ์ดํด(MME) | ์์ฑ(FID@COCO) | ํ๊ณ |
---|---|---|---|---|---|---|
์ดํด ์ ์ฉ | LLaVA-v1.5 | 7 B | SigLIP | 1510.7 | โ | ์์ฑ ๋ถ๊ฐ |
์์ฑ ์ ์ฉ | SDXL | 2.6 B | Diffusion | โ | 7.32 | ์ดํด ๋ถ๊ฐ |
ํตํฉ(๋จ์ผ ์ธ์ฝ๋) | Show-o | 1.3 B | VQ Tokenizer | 948.4 | 9.24 | ์ดํด ์ด์ธ(-41 %) |
ํตํฉ(ํด ์ฝ) | Emu | 13 B | SigLIP + diffusion | โ | 11.66 | ์ธ๋ถ ๋ชจ๋ธ ์์กด |
โก Janus | 1.3 B | SigLIP (์ดํด) + VQ (์์ฑ) | 1338.0 | 8.53 | ์ธ์ฝ๋ ์ถฉ๋ ํด์ |
- ์ดํด ์ฑ๋ฅ: Janus 1.3 B๊ฐ Show-o 1.3 B ๋๋น +41 % (1338 vs 948), LLaVA-v1.5 7 B๊ธ๊ณผ ๊ทผ์ .
- ์์ฑ ์ฑ๋ฅ: ๋จ์ผ ์ธ์ฝ๋ ํตํฉ ๋ชจ๋ธ๊ณผ ๋๋ฑ, ์์ฑ ์ ์ฉ ๋ชจ๋ธ ๋๋น FID ฮโ+1 โ 2.
- ํ๋ผ๋ฏธํฐ ํจ์จ: 7 B ์ดํด ๋ชจ๋ธ ์ฑ๋ฅ์ 1.3 B๋ก ๋ฌ์ฑ, GPU ๋ฉ๋ชจ๋ฆฌยท์ถ๋ก ์๊ฐ ์ ๊ฐ.
4. ์์ฝ ๋ฐ ์๋ฏธ
- ์ฐ๊ตฌ ๊ณต๋ฐฑ: โํํ ๊ณต๊ฐ ์ถฉ๋โ ๋ฅผ ์ธ์ฝ๋ ๋ถ๋ฆฌ๋ก ํด๊ฒฐํ ์ต์ด ์ฌ๋ก.
- ์ค์ฉ ๊ฐ์น: ์์ ๋ชจ๋ธ๋ก๋ ์ดํดยท์์ฑ ๋ ๋ค ๋์ ํ์ง โ ๋ชจ๋ฐ์ผยท์๋ฒ ๋๋ NPU ์ ์ฉ ๊ฐ๋ฅ.
- ํฅํ ํ์ฅ: ๋ชจ๋ฌ๋น ์ธ์ฝ๋ ํ๋ฌ๊ทธ์ธ ๊ตฌ์กฐ๋ก, ๊ณ ํด์๋ ์ดํด(EVA-CLIP), ์ธ๋ฐ ์์ฑ(MoVQGan), 3D ํฌ์ธํธํด๋ผ์ฐ๋ ๋ฑ ์์ฝ๊ฒ ์ง์.
๊ฒฐ๋ก ์ ์ผ๋ก Janus๋ โํ๋์ Transformer, ๋ ๊ฐ์ ์์ โ์ด๋ผ๋ ์ค๊ณ๋ก ํตํฉ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ ํจ๋ฌ๋ค์์ ์ ์ํ๋ค.
ํ๋กฌํํธ 1.1.2 (ํต์ฌ ๊ฐ์ค)
"์ด ๋
ผ๋ฌธ์ ์ค์ฌ ๊ฐ์ค(central hypothesis) ๋๋ ํต์ฌ ์ฃผ์ฅ์ ๋ฌด์์ธ๊ฐ? '์ ์๋ค์ [์ ์ ๊ธฐ๋ฒ]์ ์ฌ์ฉํจ์ผ๋ก์จ [๊ธฐ์กด ํ๊ณ์ ]์ ๊ทน๋ณตํ๋ [๊ตฌ์ฒด์ ๊ฒฐ๊ณผ]๋ฅผ ๋ฌ์ฑํ ์ ์๋ค๊ณ ๊ฐ์ ํ๋ค'์ ๊ฐ์ ํ์์ผ๋ก, ๋ช
ํํ๊ณ ๊ฐ๊ฒฐํ ํ ๋ฌธ์ฅ์ผ๋ก ์์ ํด ์ค."
์ ์๋ค์ ๋น์ ์ธ์ฝ๋ ์ด์ํโ๋ฉํฐ๋ชจ๋ฌ ์ดํด์ฉ SigLIP ์ธ์ฝ๋์ ์์ฑ์ฉ VQ ํ ํฌ๋์ด์ ๋ฅผ ๋ณ๋ ฌ๋ก ๋ฐฐ์นํ๋ Janus ๊ธฐ๋ฒ์ ์ฌ์ฉํจ์ผ๋ก์จ ๋จ์ผ ์ธ์ฝ๋ ํตํฉ ๋ชจ๋ธ์์ ๋ฐ์ํ๋ ํํ ๊ณต๊ฐ ์ถฉ๋ยท์ดํด ์ฑ๋ฅ ์ ํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , 1.3 B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ๋ก๋ MME 1338(+41 % ํฅ์)๊ณผ COCO-30K FID 8.53 ์์ค์ ์ดํดยท์์ฑ ๋์ SOTA๋ฅผ ๋ฌ์ฑํ ์ ์๋ค๊ณ ๊ฐ์ ํ๋ค.
ํ๋กฌํํธ 1.2.1 (๋ ์ฐฝ์ฑ ์๋ณ)
"๋
ผ๋ฌธ ์ ์ฒด๋ฅผ ๋ฐํ์ผ๋ก, ๊ฐ์ฅ ์ค์ํ๊ณ ๋
์ฐฝ์ ์ธ ๊ธฐ์ฌ(contribution) 1~3๊ฐ์ง๋ฅผ ๊ตฌ๋ณ๋๋ ํญ๋ชฉ์ผ๋ก ๋์ดํด ์ค. ๊ฐ๊ฐ์ด ์๋ก์ด ์ํคํ
์ฒ ๊ตฌ์ฑ์์, ์๋ก์ด ํ์ต ๊ธฐ๋ฒ, ์๋ก์ด ์ด๋ก ์ ํต์ฐฐ, ์๋ก์ด ๋ฐ์ดํฐ์
, ๋๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์ ์๋ก์ด ์ ์ฉ ์ค ์ด๋์ ํด๋นํ๋์ง ๋ช
ํํ ๊ตฌ๋ถํด ์ค."
๐ ํ ์ค ์์ฝ
Janus๋ โ์ดํด์ฉ SigLIP + ์์ฑ์ฉ VQโ ๋์ผ ๋น์ ์ธ์ฝ๋์ ์ธ ๋จ๊ณ(3-Stage) ํตํฉ ํ์ต๋ง์ผ๋ก 1.3 B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ด ๊ธฐ์กด ๋จ์ผ ์ธ์ฝ๋ ํตํฉ ๋ชจ๋ธ Show-o ๋๋น MME +41 % (949 โ 1338), **COCO-30K FID โ8 % (9.24 โ 8.53)**๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ๋ชจ๋ฌ ํ์ฅ์ ํ๋ฌ๊ทธ์ธ์ฒ๋ผ ์ง์ํ๋ค.
๐ ๊ฐ์ฅ ์ค์ํ๊ณ ๋ ์ฐฝ์ ์ธ ๊ธฐ์ฌ
# | ๊ธฐ์ฌ ์์ฝ | ๋ถ๋ฅ |
---|---|---|
1 | ๋์ผ ๋น์ ์ธ์ฝ๋ ๋์ปคํ๋ง: ๋ฉํฐ๋ชจ๋ฌ ์ดํด์๋ SigLIP-Large๋ฅผ, ์์ฑ์๋ VQ ํ ํฌ๋์ด์ ๋ฅผ ๋ณ๋ ฌ๋ก ๋ฐฐ์นํด ๋์ผ Transformer ์์์ ๋ ์์ ์ ๋ถ๋ฆฌ. ๋จ์ผ ์ธ์ฝ๋๋ก ์ธํ ํํ ๊ณต๊ฐ ์ถฉ๋์ ์ ๊ฑฐํด ์ดํด ์ฑ๋ฅ์ ๋ํญ ํฅ์์์ผฐ๋ค. | ์๋ก์ด ์ํคํ ์ฒ ๊ตฌ์ฑ์์ |
2 | 3-Stage ํตํฉ ํ์ต ํ์ดํ๋ผ์ธ: (โ Adaptor & ์ด๋ฏธ์ง ํค๋ ์ฌ์ ํ์ต โ โก LLM + ์ ์ธ์ฝ๋ ํตํฉ ์ฌ์ ํ๋ จ โ โข Supervised Instruction Tuning)์ผ๋ก ๋จ์ผ Cross-Entropy ์์ค๋ง ์ฌ์ฉํด ์ดํดยท์์ฑยทํ ์คํธ ์ธ ํ์คํฌ๋ฅผ ๋์์ ์๋ ด์ํด. ๋ณ๋ ์์ค ๊ฐ์ค์น ์์ด๋ 180 K ์คํ ๋ง์ ์ต์ข ์ฑ๋ฅ ๋ฌ์ฑ. | ์๋ก์ด ํ์ต ๊ธฐ๋ฒ |
3 | ํํ ์ถฉ๋ ํด์์ ๋ํ ์ด๋ก ยท์ค์ฆ ํต์ฐฐ & ํ๋ฌ๊ทธ์ธ ํ์ฅ์ฑ: ๊ณ ์ฐจ์่ฏญ์่ฏญ์ ํํ(์ดํด)๊ณผ ์ ์ฐจ์ ๊ณต๊ฐ์ ์ธ๋ถ(์์ฑ)๊ฐ ํ ์ธ์ฝ๋์์ ์ถฉ๋ํ๋ค๋ ๋ฌธ์ ๋ฅผ ๊ท๋ช ํ๊ณ , ๋์ปคํ๋ง์ด ์ด๋ฅผ ํด์ํจ์ ablation์ผ๋ก ์ฆ๋ช (MME +41 %, GQA +30 %). ๋ํ ์ธ์ฝ๋๋ฅผ ๊ต์ฒดํด EVA-CLIP, MoVQGan, 3D Point-Cloud ๋ฑ ๋ชจ๋ฌ ์ถ๊ฐยท๊ต์ฒด๊ฐ ์ฉ์ดํจ์ ์ค๊ณ ์ฐจ์์์ ์ ์. | ์๋ก์ด ์ด๋ก ์ ํต์ฐฐ |
์์ปจ๋ Janus๋ โํ๋์ Transformer, ๋ ๊ฐ์ ์์ โ์ด๋ผ๋ ์ค๊ณ๋ก ํตํฉ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ฑ๋ฅยท์ ์ฐ์ฑ ๋ ๋ง๋ฆฌ ํ ๋ผ๋ฅผ ์ก์ผ๋ฉฐ, ํ์ ์ฐ๊ตฌ๊ฐ ๋ชจ๋ฌ๋ณ ์ต์ ์ธ์ฝ๋๋ฅผ ํ๋ฌ๊ทธ์ธ์ฒ๋ผ ํ์ฌํ๋๋ก ๊ธธ์ ์ด์๋ค.
ํ๋กฌํํธ 1.2.2 (์ ์ ๊ด์ ์์์ ๊ฐ์ )
"์ ์๋ค์ ๊ด์ ์์, ์์ ๋ค์ ์ ๊ทผ๋ฒ์ด ์ด์ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฐ์ํ ์ด์ ๋ ๋ฌด์์ธ๊ฐ? ๊ทธ๋ค์ด ์์ ๋ค์ ์ฐ๊ตฌ๊ฐ ์ง๋ ๋
์ฐฝ์ฑ๊ณผ ๊ฐ์ ์ ๋ท๋ฐ์นจํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ํต์ฌ ๋
ผ๊ฑฐ๋ฅผ ์ธ์ฉํ๊ฑฐ๋ ์๊ธฐ ์ฝ๊ฒ ์ค๋ช
ํด ์ค."
๐ ํ ์ค ์์ฝ
์ ์๋ค์ โ๋์ผ ๋น์ ์ธ์ฝ๋ + ๋จ์ผ AR Transformerโ ์ค๊ณ๊ฐ โ ํํ ์ถฉ๋ ์ ๊ฑฐ, โก ์ฑ๋ฅ ์์น, โข ํ๋ผ๋ฏธํฐยท์ ์ฐ์ฑ ๋์ ํ๋ณด๋ผ๋ ์ธ ๊ฐ์ง ์ธก๋ฉด์์ ๊ธฐ์กด ๋จ์ผ-์ธ์ฝ๋ยทํด-์ฝ ๋ฐฉ์๋ณด๋ค ๋ช ํํ ์ฐ์ํ๋ค๊ณ ์ฃผ์ฅํ๋ค.
๐ ์ ์ ๊ด์ ์์์ ๊ฐ์ ๋ฐ ๋ ผ๊ฑฐ
# | ๊ฐ์ | ์ ์ฐ์ํ๊ฐ? (์ ์ ํต์ฌ ๋ ผ๊ฑฐยท์ค์ฆ) | ๋ถ๋ฅ |
---|---|---|---|
1 | ํํ ์ถฉ๋ ํด์ | โJanus alleviates the conflict stemming from the different granular needs of multimodal understanding and generation and eliminates the need to make trade-offsโ โ SigLIP (๊ณ ์ฐจ่ฏญ์่ฏญ)์ VQ (์ ์ฐจ์ ์ธ๋ถ) ๊ฒฝ๋ก๋ฅผ ๋ถ๋ฆฌํด ํ ์ธ์ฝ๋๊ฐ ๋ ๊ณผ์ ์๊ตฌ๋ฅผ ๋์์ ๋ง์กฑํด์ผ ํ๋ ๊ทผ๋ณธ ๋ชจ์์ ์ ๊ฑฐ. | ์ํคํ ์ฒ |
2 | ๋์ผ ํ๋ผ๋ฏธํฐ, ์๋์ ์ฑ๋ฅ | 1.3 B Janus๊ฐ ๊ฐ์ ํฌ๊ธฐ Show-o ๋๋น MME +41 %(949โ1338)ยทGQA +30 % ์ฑ๋ฅ ์์น , GenEval +8 ptยทCOCO-FID **โ8 %**๋ก ์์ฑ๋ ์ ์ง/ํฅ์ . โ ์์ง๋ง ๊ฐํ ํตํฉ ๋ชจ๋ธ ๊ฐ๋ฅ. | ์คํ ๊ทผ๊ฑฐ |
3 | ์ง์ ํ โํตํฉโ ๋ชจ๋ธ | ๊ธฐ์กด Emu ๋ฑ์ โexternal diffusion toolโ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ฏ๋ก LLM ์์ฒด์๋ ์์ฑ ๋ฅ๋ ฅ์ด ์๋ค๋ ํ๊ณ ์ง์ . Janus๋ LLM์ด ์ง์ ์ด๋ฏธ์ง ํ ํฐ์ ์์ธกํด ํ์ดํ๋ผ์ธ ๋ณต์ก์ฑ์ ์ ๊ฑฐํ๊ณ ์ถ๋ก ์ง์ฐ ๊ฐ์. | ์ํคํ ์ฒ / ์์คํ |
4 | ํ๋ฌ๊ทธ์ธ-๊ธ ํ์ฅ์ฑ | โJanus is flexible and extensible. After decoupling, both tasks can adopt state-of-the-art encodingโ โ EVA-CLIPยทMoVQGanยท3D Point-Cloud ๋ฑ ์ธ์ฝ๋ ๊ต์ฒดยท๋ชจ๋ฌ ์ถ๊ฐ๊ฐ ์์ฝ๋ค. | ์ ์ฐ์ฑ |
5 | ๊ฐ๋จํ 3-Stage ๋จ์ผ ์์ค ํ์ต | ๋ณ๋ ์์ค ๊ฐ์ค์น ์์ด Cross-Entropy ํ๋๋ก 180 K step ๋ง์ ์๋ ดํ๋ 3-Stage ํ์ดํ๋ผ์ธ ์ ์ . โ ๊ตฌํยท์ฌํ์ด ์ฉ์ด. | ํ์ต ๊ธฐ๋ฒ |
โจ ์ ๋ฆฌ
์ ์๋ค์ *โ๋ ์ผ๊ตด์ ์ Janus์ฒ๋ผ, ์๋ก ์ถฉ๋ํ๋ ์ดํดยท์์ฑ ์๊ตฌ๋ฅผ ๋ ๊ฐ์ ํนํ ์ธ์ฝ๋๋ก ๊ฐ๋ผ๋์์ผ๋ก์จ ์์ ๋ชจ๋ธ์๋ SOTA๊ธ ์๋ฉด ๋ฅ๋ ฅ์ ๋ถ์ฌํ๋คโ*๊ณ ๊ฐ์กฐํ๋ค. ์ฑ๋ฅ ๋ฐ์ดํฐ์ ์ํคํ ์ฒ ๋จ์์ฑ, ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ฌ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๊ทผ๊ฑฐ๋ก ํ์กด ํตํฉ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ ๋๋น ๋ช ํํ ์ฐ์๋ฅผ ์ ์ํ๋ค.
ํ๋กฌํํธ 1.3.1 (์๊ณ ๋ฆฌ์ฆ ๋จ๊ณ๋ณ ์ค๋ช )
"ํต์ฌ ์๊ณ ๋ฆฌ์ฆ, ๋ชจ๋ธ ์ํคํ
์ฒ, ๋๋ ์ฃผ์ ๋ฐฉ๋ฒ๋ก ์ ๋จ๊ณ๋ณ(step-by-step)๋ก ์ค๋ช
ํด ์ค. ๋
์๋ AI ๋ถ์ผ์ ๋ํ์์ ์์ค์ด๋ผ๊ณ ๊ฐ์ ํด. ํนํ, ๊ฐ๋จํ ๋ฌธ์ฅ, 3x3 ํฝ์
์ด๋ฏธ์ง, ์์ ์ํ ๊ณต๊ฐ(state space) ๋ฑ ์์ฃผ ๊ฐ๋จํ๊ณ ๊ตฌ์ฒด์ ์ธ ์์(toy example)์ ์ํ ์
๋ ฅ์ ๋ง๋ค์ด์, ์ด ์์๋ฅผ ํตํด ๊ฐ ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ฉฐ ์
๋ ฅ์ด ์ต์ข
์ถ๋ ฅ์ผ๋ก ์ด๋ป๊ฒ ๋ณํ๋๋์ง ์ ์ฒด ๊ณผ์ ์ ๋ณด์ฌ์ค. ๋ฑ์ฅํ๋ ๋ชจ๋ ํต์ฌ ์ฉ์ด์ ๋ณ์๋ ๊ทธ ์ฆ์ ์ ์ํด ์ค."
๐๏ธ TL;DR โ ํ๋์ ๋ณด๋ Janus ์ถ๋ก ยทํ์ต ํ์ดํ๋ผ์ธ
Janus๋ **โ ๋์ผ ๋น์ ์ธ์ฝ๋(SigLIP โ VQ) + โก ๋จ์ผ AR Transformer + โข 3-Stage ํ์ต(Cross-Entropy only)**๋ผ๋ ์ธ ์์๋ก ์๋ํ๋ค. ์ดํด ๊ฒฝ๋ก( SigLIP โ Adaptor โ LLM โ ํ ์คํธ)์ ์์ฑ ๊ฒฝ๋ก(ํ ์คํธ โ LLM โ VQ ID โ Image Decoder)๋ฅผ ์์ ๋ถ๋ฆฌํด MME +41 % / COCO-FID 8.53์ 1.3 B ๋ชจ๋ธ์์ ๋ฌ์ฑํ๋ค.
1. ํต์ฌ ์ฉ์ด & ๊ธฐํธ
๊ธฐํธ | ์ ์ | ํฌ๊ธฐ(์์) |
---|---|---|
ฮฃu(ยท) | SigLIP Encoder (์ดํด์ฉ) | 384ร384 img โ Nu ร 1024 |
ฮฃg(ยท) | VQ Tokenizer (์์ฑ์ฉ) | 384ร384 img โ Ng (=24ยฒ) ID |
Au, Ag | 2-์ธต MLP Adaptor | 1024โ4096, 512โ4096 |
L | DeepSeek-LLM 1.3 B, AR Transformer | 4096-dim |
Htxt, Himg | ์์ธก Head | ํ ์คํธ ํ ํฐ / VQ ID |
CFG | Classifier-Free Guidance scale | ๊ธฐ๋ณธ 5 |
2. ์ถ๋ก ๋จ๊ณ๋ณ ํ๋ก์ฐ
2-A. ๐ฏ ๋ฉํฐ๋ชจ๋ฌ ์ดํด ์์
์ง๋ฌธ: โ๐ผ๏ธ ์์ ์ซ์๋ ๋ช์ธ๊ฐ?โ ์ ๋ ฅ ์ด๋ฏธ์ง Iu (3 ร 3 ํฝ์ toy)
1 1 1
0 0 1
0 0 1
๋จ๊ณ | ์ฐ์ฐ | toy-๊ฐ |
---|---|---|
โ SigLIP ์ธ์ฝ๋ฉ | Zu=ฮฃu(Iu) | 4 patch ร 1024-d (๊ฐ๋จํ [zโโฆzโ]) |
โก Adaptor ๋งคํ | แบ=Au(Zu) | 4 ร 4096 |
โข ํ ํฐ ๊ฒฐํฉ | S = [CLS] โQ:โ โฆ แบ | ๊ธธ์ด m |
โฃ LLM ์์ธก | Y = L(S) | โ์ซ์ 1์ ๋๋ค.โ |
โค Htxt | softmaxโํ ํฐ | ๋ต๋ณ ์์ฑ |
๊ด์ฐฐ: SigLIP ๊ณ ์ฐจ่ฏญ์่ฏญ ํํ์ด ์์ค ์์ด L์ ํฌ์ ๋์ด ๋ณต์ก ์ถ๋ก ์ ์ง์ํ๋ค.
2-B. ๐๏ธ ์์ฑ ์์
ํ๋กฌํํธ: โDraw a red heart.โ
๋จ๊ณ | ์ฐ์ฐ | toy-๊ฐ |
---|---|---|
โ ํ ์คํธ ํ ํฐํ | P = [CLS] โDrawโ โaโ โredโ โheartโ | 5 tokens |
โก LLM ๋์ฝ๋ฉ | L auto-regress โ ID seq c = [12, 45, โฆ] | Ng=9 (3ร3) |
โข ID ํฌ์ | รช=Agโ1(c) | 9 codes |
โฃ ์ด๋ฏธ์ง ๋์ฝ๋ | ลถ = ฮฃgโ1(c) | 3ร3 RGB heart |
โค CFG | logit_{final} = l_u+5(l_cโl_u) | ํ์ง โ |
๊ฒฐ๊ณผ: 3ร3 toy ์ด๋ฏธ์ง
R R R
R 0 R
R R R
3. ํ์ต ํ์ดํ๋ผ์ธ (3-Stage)
Stage | ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ | ๋ชฉ์ (๋ฐ์ดํฐ ๋น์ค) | ์์ ์คํ |
---|---|---|---|
โ Adaptor + Himg | L, ฮฃu, ฮฃg ๋๊ฒฐ | ๊ฐ๋ ์ฐ๊ฒฐ (1 : 0 : 1) | 10 K |
โ ก ์ ๋ชจ๋ธ ํด์ | ํตํฉ pretrain ํ ์คํธ+์ด๋ฏธ์ง+T2I (2 : 3 : 5) | 180 K | |
โ ข Gen Encoder ์ ์ธ ์ ๋ถ | Instruction tuning (7 : 3 : 10) | 24 K |
๋ชจ๋ ๋จ๊ณ Cross-Entropy ํ๋๋ก ํ์ต โ ๊ฐ์ค์น ์กฐ์ ๋ถํ์, ์ ์ฒด 214 K ์คํ .
4. ํ๋์ ์ ๋ฆฌ โ ์ ๋ ฅโ์ถ๋ ฅ ๋ณํ ๊ณผ์
graph LR A[Image I_u] -- ฮฃ_u --> B[High-D Z_u] B -- A_u --> C[4096-d Emb] P[Text Prompt] --> D C & D -- concat --> E[Seq S] E -- L --> F[Text Logits] F -- H_txt --> G[Answer] P2[Text Prompt] --> D2 D2 -- L --> H[VQ IDs] H -- ฮฃ_g^-1 --> I[Image]
ํต์ฌ: ๋ ์ธ์ฝ๋๊ฐ ๋์์ LLM์ ์ ๋ ฅ ์ญํ ์ ํ๋, ํํ ๊ณต๊ฐ์ด ์ถฉ๋ํ์ง ์๋๋ค๋ ์ ์ด Janus์ ์ค๊ณ ํต์ฌ์ด๋ค.
โจ ์ค๋ฌด ํ (๋ธ๋ก๊ทธ์ฉ ๋ง๋ฌด๋ฆฌ)
- SigLIP โ VQ ๊ต์ฒด: EVA-CLIP, MoVQGan ๋ฑ์ผ๋ก ๊ต์ฒด ์ ์ฆ์ ์ฑ๋ฅยทํด์๋ ํ์ฅ.
- ๋ชจ๋ฌ ํ๋ฌ๊ทธ์ธ: 3D Point-Cloud, EEG ๋ฑ ์ถ๊ฐ ์ธ์ฝ๋๋ฅผ ๊ทธ๋๋ก Aโ์ ์ฐ๊ฒฐํ๋ฉด ๋.
- ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ: 1.3 B๋ผ์ A100 40 GB ํ ์ฅ์ผ๋ก๋ ์ถ๋ก 2 fps ๋ฌ์ฑ(์ ์ ๋ณด๊ณ ).
์ด์ฒ๋ผ Janus๋ โํ ์ผ๊ตด๋ก ์ดํด, ๋ค๋ฅธ ์ผ๊ตด๋ก ์์ฑโํ๋ ๋ ์ผ๊ตด์ ์ (Janus) ๋ฉํํฌ๋ฅผ ์ค์ง์ ์ฑ๋ฅ ์ด๋์ผ๋ก ๊ตฌํํ ์ฒซ ํตํฉ MLLM์ด๋ค.
ํ๋กฌํํธ 1.3.2 (‘๋น๋ฐ ๋ณ๊ธฐ’ ์๋ณ)
"์ด ๋
ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ฐ์ฅ ๊ฒฐ์ ์ ์ธ ๋จ์ผ ์ํ ๊ณต์, ์๊ณ ๋ฆฌ์ฆ ๋จ๊ณ, ๋๋ ์ํคํ
์ฒ ๊ตฌ์ฑ์์๋ฅผ ์๋ณํด ์ค. ๊ทธ๊ฒ์ ๊ธฐ๋ฅ๊ณผ, ๊ทธ๊ฒ์ด ์ด ๋ฐฉ๋ฒ๋ก ์ ์ฑ๊ณต์ ์ ํ์์ ์ธ์ง ์ค๋ช
ํด ์ค."
๐ โ๋น๋ฐ ๋ณ๊ธฐโ ํ ์ค ์ ์
๋์ผ ๋น์ ์ธ์ฝ๋ ๋์ปคํ๋งโ๋ฉํฐ๋ชจ๋ฌ ์ดํด์๋ SigLIP ์ธ์ฝ๋, ์ด๋ฏธ์ง ์์ฑ์๋ VQ Tokenizer๋ฅผ ๊ฐ๊ฐ ์ฐ๊ฒฐํ๊ณ ๋ ๊ฒฝ๋ก์ ์ถ๋ ฅ์ ํ๋์ AR Transformer ์์์ ๋จ์ ์ํ์ค ๋ณํฉ
S = [ E_txt ; A_u(ฮฃ_u(I)) ; A_g(E_VQ(I)) ]
๋ก ํตํฉํ๋ค๋ ๋จ - ํ๋์ ์ค๊ณ๊ฐ Janus์ ์ฑ๋ฅ ๋์ฝ์ ๋ง๋ ๊ฒฐ์ ์ ์์๋ค.
1๏ธโฃ ๋ฌด์์ ํ๋๊ฐ? โ ๊ธฐ๋ฅ
๊ฒฝ๋ก | ํต์ฌ ์ฐ์ฐ | ์์ฑ๋๋ ํํ | ์ญํ |
---|---|---|---|
์ดํด | F_u = A_u(ฮฃ_u(I)) | ๊ณ ์ฐจ์ semanticโfeature (4096 d) | ๊ฐ์ฒดยท๊ด๊ณยท๋ฌธ๋งฅ ํ์ |
์์ฑ | c = ฮฃ_g(I) โ F_g = A_g(E(c)) | ์ ์ฐจ์ VQ code embed (4096 d) | ํฝ์ ยทํ ์ค์ฒ ๋ณต์ |
ํตํฉ | S = [ E_txt ; F_u ; F_g ] | ๋จ์ผ ํ ํฐ ์ํ์ค | AR Transformer ์ ๋ ฅ |
ฮฃ_u
: SigLIP Encoder,ฮฃ_g
: VQ Tokenizer,A_*
: 2-์ธต MLP Adaptor,E_txt
: ํ ์คํธ ํ ํฐ ์๋ฒ ๋ฉ.- ์ดํดยท์์ฑ ๊ฐ๊ฐ ์ต์ ํํ ๊ณต๊ฐ์ ํ๋ณดํ ๋ค Transformer ๋ด๋ถ์์๋ง ์ํธ์์ฉ์์ผ ํํ ์ถฉ๋์ ์์ฒ ์ฐจ๋จํ๋ค.
2๏ธโฃ ์ ํ์์ ์ธ๊ฐ? โ ์ฑ๊ณต์ ์ด์
์ฆ๊ฑฐ | ๋จ์ผ ์ธ์ฝ๋ (Exp-A) | Janus (Exp-D) | ๊ฐ์ ํญ |
---|---|---|---|
MME (์ดํด) | 35.0 | 69.4 | +98 % |
GQA | 24.7 | 30.5 | +23 % |
COCO-FID (์์ฑ) | 8.72 | 8.53 | โ 2 % |
- ๊ฐ์ 1.3 B ํ๋ผ๋ฏธํฐ, ๋์ผ ํ์ต ์คํ ์์ ์ดํด ์ฑ๋ฅ์ ๋ ๋ฐฐ, ์์ฑ ํ์ง์ ์ ์ง/๊ฐ์ โํํ ๋ถ๋ฆฌ๋ง์ผ๋ก ์ป์ ์์ ์ด๋.
- Ablation (B โ C) ๋ **โ๋ถ๋ฆฌ + ์ดํด ์ ์ฉ ํ์ตโ**์ด ์ดํด ์งํ๋ฅผ ์ถ๊ฐ๋ก 18 pt ์ฌ๋ ค, ์ถฉ๋ ๊ฐ์ค์ ์คํ์ ์ผ๋ก ์ ์ฆ.
3๏ธโฃ ํต์ฌ์ด ๋๋ ์์/๋ธ๋ก
# ๋ฉํฐ๋ชจ๋ฌ ํตํฉ ์ํ์ค ์์ฑ
F_u = A_u( ฮฃ_u(I) ) # ์ดํด์ฉ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ
c = ฮฃ_g(I) # VQ code IDs
F_g = A_g( E(c) ) # ์์ฑ์ฉ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ
S = concat( E_txt , F_u , F_g )
Y = LLM(S) # ๋จ์ผ AR Transformer
์ด ํ ์ค์ concat ๋๋ถ์
- ์๋ก ๋ค๋ฅธ ํด์๋ยทgranularity ์๊ตฌ๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๋ฆฌํ๊ณ ,
- ๋ณ๋ ์์คยท๊ฐ์ค์น ์์ด Cross-Entropy ํ๋๋ก ์ดํดยท์์ฑยทํ ์คํธ๋ฅผ ๋์์ ํ์ตํ ์ ์๋ค.
โจ ์ ๋ฆฌ
๋จ์ผ ์์ S = [ E_txt; A_u(ฮฃ_u(I)); A_g(E_VQ(I)) ]
๊ฐ Janus์ ๋ ์ผ๊ตดโ์ดํด์ ์์ฑโ์ ์ตํฉํ๋ ์ด์ ๋ค. ์ด ๋์ปคํ๋ง+๋ณํฉ ๊ตฌ์กฐ๊ฐ ์์๋ค๋ฉด, ์์ 1.3 B ๋ชจ๋ธ์ด MME +41 %, FID 8.53 ์์ค์ ์๋ฉด SOTA๋ฅผ ์ฐ๋ ์ผ์ ๋ถ๊ฐ๋ฅํ๋ค.
ํ๋กฌํํธ 1.4.1 (ํต์ฌ ๊ฒฐ๊ณผ ๋ถ์)
"'Experiments' ๋๋ 'Results' ์น์
์ ํ์ ๊ทธ๋ฆผ์ ํฌํจํ ์ฃผ์ ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํด ์ค. ์ฌ์ฉ๋ ํต์ฌ ์ฑ๋ฅ ์งํ(performance metrics)๋ ๋ฌด์์ธ๊ฐ? ์ด๋ค ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์์ ๊ฒฐ๊ณผ๊ฐ ๋ณด๊ณ ๋์๋๊ฐ? ์ ์๋ค์ด ์์ ๋ค์ ๋ฐฉ๋ฒ๋ก ์ ์ฑ๊ณต ์ฆ๊ฑฐ๋ก ๊ฐ์ฅ ๊ฐ์กฐํ๋ ์ฃผ์ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํด ์ค."
๐ ํ๋์ ํต์ฌ ๊ฒฐ๋ก - Janus 1.3 B๊ฐ ์ ์ฆํ ๊ฒ
- ๋ฉํฐ๋ชจ๋ฌ ์ดํดโ: ๊ธฐ์กด ์ต๊ณ ํตํฉ ๋ชจ๋ธ Show-o 1.3 B๋ณด๋ค MME +41 %(949 โ 1338), GQA +30 %(48.7 โ 59.1) ํฅ์
- ํ ์คํธ-to-์ด๋ฏธ์ง ์์ฑโ: GenEval 61 % โ SOTA ํตํฉ ์ต๊ณ (๊ธฐ์กด 53 %), **COCO-30K FID 8.53(โ8 %)**๋ก ํ์ง๋ ๊ฐ์
- ํต์ฌ ๊ทผ๊ฑฐโ: ๋์ผ ์ธ์ฝ๋ ๋ถ๋ฆฌ(์ดํด-SigLIP, ์์ฑ-VQ) ํ ๊ฐ์ง ์ค๊ณ๋ง ๋ฐ๊ฟจ์ ๋ฟ, ๋์ผ ํ๋ผ๋ฏธํฐ๋ก ์ดํดยท์์ฑ ๋ชจ๋ ์ํฅ๋ **โํธ๋ ์ด๋-์คํ ์ ๊ฑฐโ**๊ฐ ์คํ์ผ๋ก ํ์ธ.
1. ์คํ์ด ์ฌ์ฉํ ์ฃผ์ ์งํ & ๋ฒค์น๋งํฌ
์์ญ | ์งํ | ํ๊ฐ ๋ฐ์ดํฐ์ |
---|---|---|
์ดํด | MME ์ค์ฝ์ด, GQA ์ ํ๋, POPEยทMMBenchยทSEED BenchยทMM-VetยทMMMU ๋ฑ task๋ณ accuracy | ๊ณต๊ฐ ๋ฒค์น๋งํฌ(์ด๋ฏธ์ง+์ง๋ฌธ) |
์์ฑ | GenEval ์ข ํฉ ์ ํ๋(ํ๋กฌํํธ-์ค์), FID (Frรฉchet Inception Distance) | GenEval-Instr, MS-COCO-30K, MJHQ-30K |
MME๋ 8๊ฐ ํ์ ๊ณผ์ ํ๊ท ์ ์(๋์์๋ก ์ข์), FID๋ ๋ฎ์์๋ก ์ด๋ฏธ์ง ํ์ง์ด ์ฐ์ํจ.
2. Janus vs. ๋ํ Baseline ์์ฝ ํ ์ด๋ธ
๋ชจ๋ธ (ํ๋ผ๋ฏธํฐ) | MME โ | GQA โ | GenEval โ | COCO-30K FID โ | MJHQ-30K FID โ |
---|---|---|---|---|---|
Show-o (1.3 B) | 949 | 48.7 | 53 % | 9.24 | 15.18 |
Janus (1.3 B) | 1338 | 59.1 | 61 % | 8.53 | 10.10 |
์ซ์ ์ถ์ฒ: MMEยทGQAยทGenEval ์ค๋ช , FID ๊ฐ .
3. ์ ์๊ฐ ๊ฐ์กฐํ ์ฑ๊ณต ์ฆ๊ฑฐ
๋์ผ ํฌ๊ธฐ, ์ฑ๋ฅ ๊ธ๋ฑ
- 1.3 B ํ๋ผ๋ฏธํฐ ์ ์งํ๋ฉด์ Show-o ๋๋น ์ดํด ์งํ +41 % / +30 % ๊ฐ์ โโโ์ธ์ฝ๋ ๋ถ๋ฆฌ๋ง์ผ๋ก ์ป์ ์์ ์ด๋.
์์ฑ ํ์ง๋ ํฌ์ ์์
- FID 8.53๋ก ํ์ง๊น์ง ๊ฐ์ , GenEval 61 %๋ก SDXL(55 %)ยทDALL-E 2(52 %) ๋ฑ ์์ฑ ์ ์ฉ ๋ชจ๋ธ ์ผ๋ถ๋ ์ถ์.
Ablation์ผ๋ก โ์ถฉ๋ ๊ฐ์คโ ๊ฒ์ฆ
- VQ ๋จ์ผ ์ธ์ฝ๋(Exp-A) โ SigLIP+VQ ๋ถ๋ฆฌ(Exp-D) ์ ํ ์ POPE 60 โ 87, COCO-FID 8.72 โ 8.53 ๋ฑ ์ดํดยท์์ฑ ๋ชจ๋ ๋์ ํฅ์.
Figure 1 ์๊ฐ ์ฆ๊ฑฐ
- MMEยทGenEval ์ขํ๊ณ์์ Janus๊ฐ MobileVLM(1.4 B)ยทInstructBLIP(7 B)ยทShow-o ๋๋น ์ฐ์ํฅ ๋ ์ฃผ ํจํด์ ๊ทธ๋ฆผ์ผ๋ก ์ ์.
4. ๊ฒฐ๊ณผ ํด์ & ์์
- ํํ ์ถฉ๋ ํด์ โ ํธ๋ ์ด๋-์คํ ๋ถ๊ดด: ํ ์ธ์ฝ๋์ ๊ณ ์ฐจ่ฏญ์่ฏญยท์ ์ฐจ์ ์ธ๋ถ๋ฅผ ๊ฐ์ ํ๋ ๊ธฐ์กด ๊ตฌ์กฐ์ ๋ชจ์์ ์์ ์, ์ดํดยท์์ฑ ๋ ์ถ์ด ๋์์ ์ฌ๋ผ๊ฐ.
- ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ: 7 B ์ดํด ์ ์ฉ(LLaVA-v1.5 ๋ฑ)๊ณผ ์ ์ฌํ ์ดํด ์ฑ๋ฅ์ 1.3 B๋ก ๋ฌ์ฑ, ๋ชจ๋ฐ์ผ/NPU ๋ฐฐ์น ๊ฐ๋ฅ์ฑ์ ์ด์๋ค.
- ๋ฒ์ฉ์ฑ ๊ฒ์ฆ: GenEval-Instr ๊ฐ์ ๊ธธ๊ณ ๋ณต์กํ ํ๋กฌํํธ๋ ์ ๋ฐ๋ฅด๋ฉด์, COCO-FID๊น์ง ๋ฎ์ถฐ ๊ท ํ ์กํ SOTA๋ฅผ ์ ์.
์์ปจ๋ Janus์ ์คํ ๊ฒฐ๊ณผ๋ โํ๋์ Transformer + ๋ ์ธ์ฝ๋โ ์ค๊ณ๊ฐ ๋ฉํฐ๋ชจ๋ฌ ํตํฉ ๋ชจ๋ธ์ ์ฑ๋ฅ ๋ณ๋ชฉ์ ๊ทผ๋ณธ์ ์ผ๋ก ์ ๊ฑฐํ์์ ์์น๋ก ์ฆ๋ช ํ๋ค.
ํ๋กฌํํธ 1.4.2 (๋นํ์ ๋น๊ต)
"์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ๋
ผ๋ฌธ์์ ์ธ๊ธ๋ ์ฃผ์ ๋ฒ ์ด์ค๋ผ์ธ ๋ฐ SOTA(State-of-the-Art) ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ์ด๋ค ์ฑ๋ฅ์ ๋ณด์ด๋๊ฐ? ์ ์๋ค์ ์ฐ์์ฑ ์ฃผ์ฅ์ ๊ฐ์ฅ ๊ฐ๋ ฅํ๊ฒ ๋ท๋ฐ์นจํ๋ ํน์ ๊ฒฐ๊ณผ๋ ๋น๊ต ์ง์ ์ ์๋ณํด ์ค. ๋ฐ๋๋ก, ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ด ๊ฒฝ์ ๋ชจ๋ธ์ ๋ฅ๊ฐํ์ง ๋ชปํ๊ฑฐ๋ ๊ฐ์ ํจ๊ณผ๊ฐ ๋ฏธ๋ฏธํ๋ ๊ฒฐ๊ณผ๋ ์๋์ง ์ฐพ์๋ด. ๋ง์ฝ ์๋ค๋ฉด, ์ ์๋ค์ ์ด๋ฌํ ๊ฒฝ์ฐ์ ๋ํด ์ด๋ค ์ด์ ๋ฅผ ์ ์ํ๋๊ฐ?"
๐ ๊ฒฐ๋ก ๋จผ์
Janus 1.3 B๋ ๊ฐ์ ํฌ๊ธฐ์ ํตํฉ MLLM Show-o ๋๋น
- ์ดํด โ MME +41 %(949 โ 1338), GQA +30 %(48.7 โ 59.1)
- ์์ฑ โ GenEval +8 pt (53 โ 61), COCO-FID โ8 %(9.24 โ 8.53) ์ ๋ฌ์ฑํด โ๋จ์ผ ์ธ์ฝ๋์ ํํ ์ถฉ๋โ ๊ฐ์ค์ ๊ฐ๋ ฅํ ์ ์ฆํ๋ค. ๊ทธ๋ฌ๋ ์ ์ฉ ์์ฑ SOTA(PixArt-ฮฑ 7.32 / RAPHAEL 6.61 FID)๋ ์ด๋ํ ์ดํด ๋ชจ๋ธ(LLaVA-v1.5 MMMU 35.4)๊น์ง๋ ์์ง ๋ฏธ์น์ง ๋ชปํ๋ฉฐ, ์ ์๋ค์ ํ ํฌ๋์ด์ ์ข ๋ฅยทํ๋ผ๋ฏธํฐ ๊ท๋ชจ ์ฐจ์ด๋ฅผ ์์ธ์ผ๋ก ๋ ๋ค.
๐ ํต์ฌ ๋น๊ต ํ ์ด๋ธ
๋ชจ๋ธ (ํ๋ผ๋ฏธํฐ) | ๋ฒ์ฃผ | MME โ | GQA โ | GenEval โ | COCO-FID โ | MJHQ-FID โ |
---|---|---|---|---|---|---|
Show-o 1.3 B | ํตํฉ | 948 | 48.7 | 53 | 9.24 | 15.18 |
Janus 1.3 B | ํตํฉ (์ ์) | 1338 | 59.1 | 61 | 8.53 | 10.10 |
LLaVA-v1.5 7 B | ์ดํด ์ ์ฉ | 1510 | 62.0 | โ | โ | โ |
PixArt-ฮฑ 0.6 B | ์์ฑ ์ ์ฉ | โ | โ | 48 | 7.32 | โ |
RAPHAEL 3 B | ์์ฑ ์ ์ฉ | โ | โ | โ | 6.61 | โ |
VILA-U 7 B (384) | ํตํฉ | 1402 | 60.8 | โ | โ | 7.69 |
๊ตต์ ๊ฐ์ ํด๋น ์ด ์ต๊ณ ์ฑ๋ฅ. ์ถ์ฒ: Table 2ยท3ยท4 in paper.
๐ ์ฐ์์ฑ์ ๋ท๋ฐ์นจํ๋ โํฌ๋ฌโ ๋น๊ต ์ง์
๋์ผ ํ๋ผ๋ฏธํฐ๋ก ๋ ๋ฐฐ ๊ฐ๊น์ด ์ดํด ์ฑ๋ฅ
- MME 949 โ 1338, GQA 48.7 โ 59.1: *โ์ํ์ค ๋จ์ ๋ณํฉ์ผ๋ก ํํ ์ถฉ๋์ ํด์ํ๋คโ*๋ ์ฃผ์ฅ์ ์์น๋ก ํ์ธ.
ํตํฉ ๋ชจ๋ธ ์ค ์ต๊ณ ์์ฑ ์งํ
- GenEval 61 %: Show-oยทSDXLยทDALL-E 2 ๋ชจ๋ ์ถ์, instruction-following ๋ฅ๋ ฅ ๊ฐ์กฐ.
Ablation์ผ๋ก โ๋์ผ ์ธ์ฝ๋โ ํจ๊ณผ ์ง์ ๊ฒ์ฆ
- ๋จ์ผ VQ ์ธ์ฝ๋(Exp-A) ๋๋น POPE +27 pt, COCO-FID โ0.19; ์ดํดยท์์ฑ ๋ชจ๋ ๋์ ์์น.
๐ ํ๊ณ ๋๋ ๋ฏธํกํ ๋ถ๋ถ & ์ ์ ํด์
๊ด์ฐฐ๋ ์ด์ธ | ๊ตฌ์ฒด ์์น | ์ ์/๋ ผ๋ฌธ ํด์ |
---|---|---|
**์์ ํ์ง(FID)**๋ ์ต์ SOTA๋ณด๋ค ๋์ | RAPHAEL 6.61 < PixArt-ฮฑ 7.32 < Janus 8.53 | VQ ํ ํฌ๋์ด์ ํ๊ณยทํด์๋ 384ยฒ, โ์ ์ฉ GANยทdiffusion์ ํ์ง ์ต์ ํ๊ฐ ๋ชฉ์ โ |
MMMU ๊ณผ๋ชฉํ ์ถ๋ก ์์ LLaVA-v1.5 ์์ฌ | 30.5 < 35.4 | ๋๊ท๋ชจ ๋ฐ์ดํฐยท7 B ํ๋ผ๋ฏธํฐ์ ์ด์ . ํฅํ โ๊ณ ํด์๋ ์ดํด ์ธ์ฝ๋(EVA-CLIP)๋ก ๋ณด์ ๊ฐ๋ฅโ ์ธ๊ธ |
**Semantic Tokenizer baseline (Exp-B)**๊ฐ ๋ ๋ฎ์ FID | 7.11 < 8.53 | ํ ํฌ๋์ด์ ๊ฐ โ๋ ํฐ ํ๋ผ๋ฏธํฐ+่ฏญ์่ฏญ IDโ๋ผ ์์ฑ์ ์ ๋ฆฌ, ๊ทธ๋ฌ๋ ์ดํด ์ฑ๋ฅ ๊ธ๋ฝ(52.7 MMB)์ผ๋ก trade-off ์กด์ฌ |
MJHQ-FID์์ VILA-U(384) 7 B ์ฐ์ | 7.69 < 10.10 | VILA-U๋ ํด์๋ 384ยฒ ๋์ผํ์ง๋ง ์ธ์ฝ๋๊ฐ ํ๋ผ๋ฏธํฐยท์ฌ์ ํ์ต ๋ ํผ, Janus๋ ์ดํด๊น์ง ๋์ ๋ฌ์ฑ ๋ชฉํ์์ ๊ฐ์กฐ |
โจ ์ ๋ฆฌ
Janus์ ๋์ผ ๋น์ ์ธ์ฝ๋ + ๋จ์ผ Transformer ์ค๊ณ๋ ๊ฐ์ ํฌ๊ธฐ ํตํฉ ๋ชจ๋ธ ์์์ ์ดํดยท์์ฑ ๋ ์ถ์ ๋ชจ๋ ๋์ด์ฌ๋ฆฐ ์ฒซ ์ฌ๋ก๋ค. ๊ฐ์ฅ ๊ฐ๋ ฅํ ์ฆ๊ฑฐ๋ **MME +41 % & COCO-FID โ8 %**๋ผ๋ ํธ๋ ์ด๋-์คํ ๋ถ๊ดด์ด๋ฉฐ, ๋จ์ ๊ณผ์ ๋
- ๊ณ ํด์๋ยท์ FID ์ ์ฉ ํ ํฌ๋์ด์ ์ฑํ,
- ๋๊ท๋ชจ ๊ณผ๋ชฉํ ์ถ๋ก ๋ฐ์ดํฐ,
- ๋ฉํฐ๋ชจ๋ฌ ํ์ฅ(EVA-CLIP, MoVQGan) ๋ฑ์ผ๋ก SOTA ๊ฒฉ์ฐจ๋ฅผ ์ขํ๋ ๊ฒ์ด๋ค.
ํ๋กฌํํธ 1.5.1 (์ธ๊ธ๋ ํ๊ณ์ ์ ์ฌ์ ํ๊ณ)
"์ ์๋ค์ด ๋
ผ๋ฌธ์์ ๋ช
์์ ์ผ๋ก ์ธ์ ํ ํ๊ณ์ , ์ฝ์ , ๋๋ ์คํจ ์ฌ๋ก(failure modes)๋ ๋ฌด์์ธ๊ฐ? ๋ค์์ผ๋ก, ๋ฐฉ๋ฒ๋ก ๊ณผ ๊ฒฐ๊ณผ์ ๋ํ ๋น์ ์ ๋ถ์์ ๋ฐํ์ผ๋ก, ์ ์๋ค์ด ์ธ๊ธํ์ง ์์์ ์ ์๋ ์ ์ฌ์ ์ธ ํ๊ณ๋ ์ฝ์ ์ ๋ฌด์์ด๋ผ๊ณ ์๊ฐํ๋๊ฐ? (์: ๊ฐ๋ ฅํ ๊ฐ์ ์ ๋ํ ์์กด์ฑ, ํ์ฅ์ฑ ๋ฌธ์ , ๋์ ์ฐ์ฐ ๋น์ฉ, ์ผ๋ฐํ์ ํ๊ณ, ์ ์ฌ์ ์ธ ๋ถ์ ์ ์ฌํ ์ํฅ ๋ฑ)"
ํ๋์ ๋ณด๋ ๊ฒฐ๋ก ์ ์๋ค์ด ๋ช ์์ ์ผ๋ก ๋ฐํ ์ ์ฝ์ โฒ ์ ํด์๋(384ร384) ์ด๋ฏธ์ง๋ก ํ์ตยทํ๊ฐ โฒ ์๋ฌธ ์์ฃผ ํ ์คํธ-ํฌ-์ด๋ฏธ์ง(T2I) ๋ฐ์ดํฐ์๋ง ์์กด โฒ ๋ฉํฐํ์คํฌ ์์ค์ ๋์ผ ๊ฐ์ค์น๋ก ๋จ์ ํฉ์ฐ โฒ ์๊ฐ ์์ฑ/์ดํด ์ธ์ฝ๋๋ฅผ ๋ถ๋ฆฌํ์ง๋ง VQ-ํ ํฌ๋์ด์ (16ร ๋ค์ด์ํ) ๊ธฐ๋ฐ์ด๋ผ ์ธ์ธํ ๋ํ ์ผ์ด ์์ค๋๊ธฐ ์ฝ๋ค๋ ์ ์ด๋ค. ์ถ๊ฐ๋ก, ํ์๋ โฒ 4096 ํ ํฐ์ ์งง์ ํ ์คํธ ์ปจํ ์คํธ โฒ AR(autoregressive) ์ด๋ฏธ์ง ์์ฑ์ ๋๋ฆฐ ์ํ๋ง โฒ 7 ์ผ ยท A100 128 GPU ๊ท๋ชจ์ ๋ง๋ํ ํ์ต ๋น์ฉ โฒ ๋๋ฉ์ธยท์ธ์ดยท์ฌํ์ ํธํฅ ๊ฒ์ฆ ๋ถ์กฑ ๋ฑ์ ์ ์ฌ์ ํ๊ณ๋ก ์ง์ ํ๋ค.
1. ์ ์๊ฐ ๋ช ์ํ ํ๊ณยท์คํจ ๋ชจ๋
# | ํ๊ณ(์ ์ ์ง์ค) | ๊ทผ๊ฑฐ | ์ ์ฌ ์ํฅ |
---|---|---|---|
1 | ํด์๋ ์ ํ โ ๋ชจ๋ ์ด๋ฏธ์ง๋ฅผ 384 ร 384๋ก ๋ฆฌ์ฌ์ด์ฆ ํ ํ์ตยทํ๊ฐ | โAll images are resized to 384 ร 384 pixelsโ | ๊ณ ํด์๋ ๋ํ ์ผ/ํ ์ค์ฒ ์์ค, ๋ค์ด์คํธ๋ฆผ ํ์ง ์ ํ |
2 | VQ-Tokenizer ๋จ์ ์ธ์ง โ ๋ ์ธ๋ฐํ ์ธ์ฝ๋(MoVQGan), Diffusion Loss, AR + Parallel ํผํฉ ๋ฑ์ โPossible Extensionsโ๋ก ์ ์ | โFiner-grained encodersโฆ diffusion lossโฆ AR and parallel methods can be usedโ | ํ ์์คํ ์ ์ธ๋ฐ๋ยทํผ์ ์ถ์ผ ํ์ง ํ๊ณ |
3 | ์๋ฌธ T2I ๋ฐ์ดํฐ๋ง ์ฌ์ฉ โ ๋ค๊ตญ์ด T2I๋ โemergentโ๋ก ๊ฐ์ฃผ | โwe only use English text-to-image data in trainingโ | ๋น์์ด ํ๋กฌํํธ ์ฑ๋ฅยท์์ ์ฑ ๋ฏธ๊ฒ์ฆ |
4 | ์์ค ๊ฐ์ค์น ๋ฏธ์กฐ์ โ ๋ชจ๋ ํ์คํฌ์ ๋์ผ CE Loss ์ ์ฉ | โwe have not assigned different loss weights to different tasksโ | ํ์คํฌ ๊ฐ trade-off ์ต์ ํ ๋ฏธํก, ํน์ ํ์คํฌ ๊ณผ์ํ์ต ๊ฐ๋ฅ |
2. ์ ์๊ฐ ์์๋ง ํ๊ฑฐ๋ ์ธ๊ธํ์ง ์์ ์ ์ฌ์ ํ๊ณ
๋ฒ์ฃผ | ์ ์ฌ ํ๊ณ(ํ์ ์ถ์ ) | ๊ด๋ จ ์ฌ์คยท์์น | ์ด์ ยทํ๊ธํจ๊ณผ |
---|---|---|---|
๋ชจ๋ธ ์ฉ๋ยท๋งฅ๋ฝ | ํ ์คํธ ์ปจํ ์คํธ 4 096 ํ ํฐ ํ๊ณ | DeepSeek-LLM(1.3 B) max seq = 4096 | ๊ธธ์ด 10 K+ ๋ฌธ์ QAยท๋ฉํฐ๋ชจ๋ฌ ๋ ผ๋ฌธ ์์ฝ ๋ฑ์์ ์ ์ฝ |
์๊ฐ ์์ฑ ํ์ง | 16ร ๋ค์ด์ํ + 16 384 ์ฝ๋๋ถ โ ๋ฏธ์ธ ํจํด ์์คยท๋ธ๋ก์ฑ | โdownsamples images by a factor of 16โฆ codebook of size 16 384โ | ์์ ๊ฐ์ฒดยทํ ์คํธ ๋ ๋๋ง ์ค๋ฅ, FID ์ค์ฝ์ด ์ํ |
์๋ยท์ค์ฉ์ฑ | AR T2I โ 384ยฒ ํฝ์ ๊ธฐ์ค 1~2 s/์ด๋ฏธ์ง(์ ์ ์คํ)ยน | (์คํ ์น์ ์ถ์ ) | ์ค์๊ฐ ์๋น์คยท๋ํํ ์์ฑ์๋ ์ง์ฐ |
์์ยท์ฌํ์ฑ | 7 ์ผ ร 128 A100 GPU ํ์ต | โ7 days on 16 nodes ร 8 A100(40 GB)โ | ์ค์ ์ฐ๊ตฌ์๋ ์ฌํยทํ์ธํ๋ ๋์ด๋โ, ํ์๋ฐฐ์ถ ๋ฌธ์ |
๋ฐ์ดํฐยทํธํฅ | ์๋ฌธยท์น ์ด๋ฏธ์ง ํธ์ค โ ๋ฌธํยท์ ๋ฌธ ๋๋ฉ์ธ ํธํฅ | ๋ฐ์ดํฐ ์ ๋ชฉ๋ก | ์๋ฃ, ์์ฑ, ์ ํด์๋ ๋ถ์ผ ์ผ๋ฐํ ๋ถํ์ค |
์์ ์ฑ | ๊ฐ์ฒด/์์ฑ ํ๊ฐ(Object Hallucination) ๋ถ์ ๋ถ์ฌ | (๋ ผ๋ฌธ ๋ฏธ๊ฑฐ๋ก ) | ์ค์ VLM๋ค์ ๋ํ์ ์ทจ์ฝ์ ; ์ถํ ์ ๋ฐ ๋ฒค์น ํ์ |
ยน ์ ์ ๊ณต๊ฐ ๋ฐ๋ชจ ๊ธฐ์ค ๋น๊ณต์ ์ธก์ .
3. ์์ฝ & ์ฐ๊ตฌยท์ค๋ฌด ์์ฌ์
- ํ๋ ๊ฐ๋ฅ์ฑ โ ํด์๋ยท์ธ์ดยท๋ชจ๋ฌ๋ฆฌํฐ ํ์ฅ์ ์ค๊ณ์ ๊ฐ๋จ(Separate Encoder)ํ์ง๋ง, VQ โ Diffusion ๋์ฒด ๋ฑ ๊ตฌ์กฐ์ ์ ๊ทธ๋ ์ด๋๊ฐ ์ ๊ฒฐ ๊ณผ์ ๋ค.
- ์์ฉ ์ ํ โ 384px ์ดํ, ์๋ฌธ ์ค์ฌ UI, ๋น ๋ฅธ ํ๋กํ ํ์ดํ์ ์ฆ์ ์ ์ฉ. ๋ฐ๋ฉด ๊ณ ํด์ยท๋ค๊ตญ์ดยท์ค์๊ฐ ์์ฑ ๋๋ ์ฅ๋ฌธ ๋ฉํฐ๋ชจ๋ฌ reasoning์๋ ์ถ๊ฐ ์ฐ๊ตฌ ํ์.
- ํ์ ๊ณผ์ โ (i) ๊ณ ํด์๋ Semantic-Tokenizer ๊ต์ฒด, (ii) ์ฅ๋ฌธ ๋น์ -ํ ์คํธ ์์ถํํ ์ฐ๊ตฌ, (iii) ํ์คํฌ ๊ฐ์ค์นยท๋ฉํฐ์ค๋ธ์ ํฐ๋ธ ํ์ต ์ ๋ต, (iv) ํธํฅยท์์ ์ฑ ๊ณต์ ํ๊ฐ.
์ฐธ๊ณ
์ ํ์ โ๊ทผ๊ฑฐโ ์ด์ ๋ ผ๋ฌธ ๋ฌธ์ฅ์ ์ง์ ์ธ์ฉํ๊ฑฐ๋ ํยท๊ทธ๋ฆผ์ ๋ช ๊ธฐ๋ ์์น๋ฅผ ๋ฐ์จ ๊ฒ์ด๋ค. ๊ฐ ์ธ์ฉ์ ์๋ฌธ ํ์ด์ง๋ฅผ ๋ํ๋ด๋ฉฐ, ์จ๋ผ์ธ ๋ฒ์ (arXiv 2410.13848 v1)๊ณผ ๋์ผํ๋ค.
ํ๋กฌํํธ 1.5.2 (๋ฏธ๋ ์ฐ๊ตฌ ๊ถค์ )
"์ ์๋ค์ด ์ ์ํ๋ ๊ตฌ์ฒด์ ์ธ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ฌด์์ธ๊ฐ? ์ด ๋
ผ๋ฌธ์ ํ๊ณ์ ์ ๋ฐํ์ผ๋ก, ์ด ์ฐ๊ตฌ๋ฅผ ๋ฐ์ ์ํค๊ฑฐ๋ ์ฝ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด ์ถ๊ตฌํ ์ ์๋ ๋ค๋ฅธ ๋
ผ๋ฆฌ์ ์ธ ๋ค์ ๋จ๊ณ๋ ๋์์ ์ธ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ฌด์์ด ์์๊น?"
๐ TL;DR โ ์ ์ โJanusโ์ ๋ค์ ์คํ ๊ณผ ์ฐ๋ฆฌ๊ฐ ์ ์ํ๋ ํ์ ์ฐ๊ตฌ
์ ์ ์ ์ 3๋ ๋ฐฉํฅ
- ๋ ์ธ๋ฐํ ์์ฑ ์ธ์ฝ๋ (MoVQGan ๋ฑ)๋ก ํด์๋ยทFID ์ถ๊ฐ ๊ฐ์
- ์์ฑ์ฉ ํ์ต ์ ๋ต ๊ณ ๋ํ โ Diffusion loss, AR + Bidirectional ํผํฉ์ผ๋ก ์ค๋ฅ ๋์ ยท์ง๊ฐ ํ์ง ํด๊ฒฐ
- ์ ๋ชจ๋ฌ ํ๋ฌ๊ทธ์ธ โ 3D Point-Cloud, EEG, Tactile, Audio ์ธ์ฝ๋๋ฅผ ๊ฐ์ Transformer์ ์ ์ (ํ๋ฌ๊ทธ์ธํ ํ์ฅ)
์ถ๊ฐ๋ก ๊ณ ๋ คํ 4๊ฐ์ง ์ฐ๊ตฌ ๊ถค์ (ํ๊ณ ๋ณด์)
- ๊ณ ํด์๋ยท์ FID๋ฅผ ์ํ โHybrid-Tokenizerโ (VQ16ร + VQ4ร patch fusion)
- ์ปจํ ์คํธ 16 k+ ํ์ฅ & ๋ณตํฉ ๊ธธ์ด ์ดํ ์ โ Hydragen-style ํ๋ฆฌํฝ์ค ๊ณต์ ์ฃผ์
- ํ ํฌ๋์ด์ -ํ๋ฆฌ ํ๋ผ๋ ๋ํจ์ ํค๋ โ AR ์๋ ๋ณ๋ชฉ ํด์, ๋ชจ๋ฐ์ผ ์ถ๋ก 10ร ๊ฐ์
- ๋ค๊ตญ์ด/๋๋ฉ์ธ ํธํฅ ์ํ โ ๋น์์ด T2Iยท์ ๋ฌธ ์ด๋ฏธ์ง(์๋ฃ, ์์ฑ)๋ก ๋จ๊ณ์ curriculum-mix
1. ์ ์๊ฐ ์ง์ ์ธ๊ธํ ๊ตฌ์ฒด์ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
๋ถ๋ฅ | ์ ์ ๋ด์ฉ | ๊ธฐ๋ ํจ๊ณผ |
---|---|---|
์ธ์ฝ๋ ๊ต์ฒด | โfiner-grained encoders (e.g., MoVQGan) can be chosen to preserve more image detailsโ | ํด์๋ โ, FID โ |
Loss ๋ฐ ๋์ฝ๋ฉ | โloss functions specifically designed for visual generation, such as diffusion lossโฆ a combination of AR and parallel methods can reduce accumulated errorsโ | ํ ์ค์ฒยท๊ธ์ ๋๋ฝ ๊ฐ์, ์๋ โ |
๋ชจ๋ฌ ํ์ฅ์ฑ | โeasy integration with additional encodersโฆ point clouds, EEG, audioโ | ๋ฉํฐ์ผ์ยท3D ์ธ์งยท์๋ฃ ๋ฑ ๋ฒ์ฉ์ฑ |
์์ปจ๋ ๋์ผ ์ธ์ฝ๋ ๊ตฌ์กฐ ์์ฒด๊ฐ ๊ต์ฒดยท์ถ๊ฐ๊ฐ ์ฝ๋ค๋ ์ ์ ํ์ฉํด โํด์๋ โ ํ์ต ๋ชฉํ โ ๋ชจ๋ฌ ๊ฐฏ์โ 3์ถ์์ ๋จ๊ณ์ ํ์ฅ์ ๊ถ์ฅํ๋ค.
2. ๋ ผ๋ฌธ์ ํ๊ณ์์ ํ์๋๋ ์ถ๊ฐ ์ฐ๊ตฌ ๊ถค์ (ํ์ ์ ์)
# | ๊ฐ์ ์์ด๋์ด | ์ ํ์ํ๊ฐ? | ์คํ ๋์ ยทํด๊ฒฐ ์ค๋ง๋ฆฌ |
---|---|---|---|
A | Hybrid Tokenizer (16ร + 4ร) โ ์ ํด์๋ 384ยฒ ์ ์ฝ ๊ทน๋ณต | 384ร384 ๋ฆฌ์ฌ์ด์ฆ๋ก ์ธ๋ฐ ๊ฐ์ฒด๊ฐ ๊นจ์ง | MoVQGan 4ร, Patch-SR ์ฐ๊ฒฐ โ LLM ์ ๋ ฅ ๊ธธ์ด ๊ด๋ฆฌ |
B | ์ฅ๋ฌธ ๋ฉํฐ๋ชจ๋ฌ 16 k+ (ํ๋ฆฌํฝ์ค ๊ณต์ Hydragen ์ฝ์ ) | ํ์ฌ 4 096 ํ ํฐ ํ๊ณ โ ๋ ผ๋ฌธยท์ฝ๋ ์คํฌ๋กค QA ๋ถ๊ฐ | Prefix KV ๊ณต์ + ํ์ Attention ๋ถํด |
C | Token-Free Parallel Diffusion Head | AR ์ด๋ฏธ์ง ํ ํฐ 1 โ 2 FPS โ ๋ํํ ์๋น์ค ๋๋ฆผ | Cond-Diffusion ํค๋๋ง ๋ณ๋ ฌ ์ถ๋ก , ํ ์คํธ-LLM์ ์ ์ง |
D | ๋ค๊ตญ์ด & ์ ๋ฌธ ๋๋ฉ์ธ Curriculum | ์๋ฌธ T2I ๋ฐ์ดํฐ ํธ์ค โ ๋ฌธํยท์๋ฃ ํธํฅ | ๋จ๊ณ์ ํผํฉ(์๋ฌธโ๋ค๊ตญ์ดโ์ ๋ฌธ) + ์ญ๋ฒ์ญ ์ฆ๊ฐ |
3. ์ฐ๊ตฌ ๋ก๋๋งต ์์ (์ฐ๋ยท๊ท๋ชจ ๊ธฐ์ค)
๋จ๊ณ | ๋ชฉํ | ํต์ฌ ์ก์ | ์์ ์ฑ๊ณผ |
---|---|---|---|
2025 H2 | FID < 7 @512ยฒ | Hybrid-Tokenizer + Diffusion-Loss pre-finetune | Show-o(9.2) ๋๋น โ25 % |
2026 H1 | 3D Point-Cloud ์ ๋ ฅ | PointNeXt Encoder โ Adaptor ๋ถ์ | indoor-Nav QA 70 % โ |
2026 H2 | Context 16 k | Hydragen Prefix-Batch + GQA KV | ๋ ผ๋ฌธ QA ์ ํ๋ +8 pt |
2027 | ๋ค๊ตญ์ด & ์๋ฒ ๋๋ NPU | Cross-lingual curriculum + Parallel Head INT4 | ์์์๊ถ GenEval-ko 60 % ๋ฌ์ฑ, ๋ชจ๋ฐ์ผ 30 ms |
โจ ๋ง๋ฌด๋ฆฌ
Janus๊ฐ ์ ์ํ โ๋ ์ผ๊ตด, ํ Transformerโ ์ค๊ณ๋ ์ด๋ฏธ ํํ ์ถฉ๋์ ํด์ํ๋ค. ์์ผ๋ก์ ํต์ฌ ๊ณผ์ ๋ (i) ๋ํ ์ผ ๋ณด์กด, (ii) ์๋ยทํด์๋ ์๋ฆฝ, (iii) ๋ชจ๋ฌยท์ธ์ด ๋ค๋ณํ๋ค. ์ ํ์ ๊ฐ์ด ํ ํฌ๋์ด์ ยท์ดํ ์ ยทํ์ต ์ผ๊ฐ ๊ฐ์ ์ ๋ณํํ๋ฉด, 1 ~ 2 ๋ ๋ด **๋ฉํฐ๋ชจ๋ฌ GPT-4 ๋ ๋ฒจ โ๋ฒ์ฉ ์๊ฐ+์์ฑ ์์ด์ ํธโ**๋ก ์งํํ ์ ์์ ๊ฒ์ด๋ค.
ํ๋กฌํํธ ๋ฐ์ดํฐ ๋ฐ ์ ์ฒ๋ฆฌ
"ํ์ต ๋ฐ ์ถ๋ก ์ ์ฌ์ฉ๋ ์ด๋ฏธ์ง ํด์๋๋ ์ผ๋ง์ธ๊ฐ? ์ ์ฉ๋ ๊ตฌ์ฒด์ ์ธ ๋ฐ์ดํฐ ์ฆ๊ฐ(data augmentation) ๊ธฐ๋ฒ(์: random cropping, color jitter, CutMix)์ ์ค๋ช
ํ๊ณ , ์ด๊ฒ์ด ์ด ํน์ ๋น์ ๊ณผ์ ์ ์ ์ค์ํ์ง ์ค๋ช
ํด ์ค."
โฉ ํ๋์ ๋ณด๋ ๊ฒฐ๋ก
- ํ์ตยท์ถ๋ก ์ ๋ ฅ ํด์๋: 384 ร 384 px ๊ณ ์ .
- ์ฃผ์ ์ ์ฒ๋ฆฌยท์ฆ๊ฐ
๋ฐ์ดํฐ ์์ญ ๋จ๊ณ ์ธ๋ถ ๋ด์ฉ ๋ชฉ์ ๋ฉํฐ๋ชจ๋ฌ ์ดํด โ ์ค์ผ์ผ ๊ธด ๋ณ(long side)์ 384 px๋ก ๋น์จ ์ ์ง ๋ฆฌ์ฌ์ด์ฆ ๋ด์ฉ ์๊ณก ์ต์ํ โก ํจ๋ฉ ์งง์ ๋ณ์ RGB (127, 127, 127) ๋ก ํจ๋ฉ โ 384 ร 384 SigLIP-Large(Patch16-384) ์ ๋ ฅ ๊ท๊ฒฉ ์ผ์น, ํจ์น ๊ฒฝ๊ณ ์ ๋ณด ๋ณด์กด ์๊ฐ ์์ฑ โ ์ค์ผ์ผ ์งง์ ๋ณ(short side)์ 384 px๋ก ๋ฆฌ์ฌ์ด์ฆ ๊ณต๊ฐ ํด์๋ ํต์ผ โก ํฌ๋กญ ๊ธด ๋ณ์ 384 px๋ก ํฌ๋กญ(์ค์/๋๋ค ๊ฐ๋ฅ) VQ ํ ํฌ๋์ด์ (16ร ๋ค์ด์ํ)์ ์ ๋ฐฉํ ํ ํฐ ๊ฒฉ์ ์ ํฉ
์ธ๋ถ ํด์ค
ํด์๋ ์ ํ ๊ทผ๊ฑฐ
- SigLIP-Large-Patch16-384 ๋น์ ์ธ์ฝ๋๋ 384 ร 384 ์ ๋ ฅ์์ ํจ์น ์๊ฐ 24 ร 24=576๊ฐ๋ก ๊ณ ์ ๋ผ ํ ํฐ ์์ ์์น ์๋ฒ ๋ฉ์ด ์์ ๋๋ค.
- VQ ํ ํฌ๋์ด์ ๋ 16๋ฐฐ ๋ค์ด์ํ์ด๋ฏ๋ก 384 px โ 24 px ํ ํฐ ๊ฒฉ์๊ฐ ๋๊ณ , ์ธ๋/์ค๋ฒ์ํ๋ง ์์ด ํฝ์ ยทํ ํฐ ์ ๋ ฌ์ด ๋ง๋๋ค.
์ ์ฒ๋ฆฌยท์ฆ๊ฐ ์ ๋ต
์ ๋ต ์ ์ค์ํ๊ฐ? ๋น์จ ์ ์ง ๋ฆฌ์ฌ์ด์ฆ + ํจ๋ฉ(์ดํด) ์์ ํฌ๋กญ์ ํผํจ์ผ๋ก์จ ์ง๋ฌธโ๋ต๋ณ ํ๋ จ์์ ๋ฌผ์ฒดยทํ ์คํธ๊ฐ ์๋ฆฌ์ง ์๋๋ก ๋ณด์ฅ โ ์ธ์ด ํ ํฐ๊ณผ ์๊ฐ ํ ํฐ ์ ๋ ฌ ์ค์ฐจ โ ์ค์ผ์ผ + ํฌ๋กญ(์์ฑ) ์์ฑ ์ชฝ์ ๋ฐฐ๊ฒฝ๊น์ง ์ธ๋ฐํ ์ง์ญ ๋ถํฌ๋ฅผ ํ์ตํด์ผ ํ๋ฏ๋ก, ๋ชจ๋ ์์น๊ฐ ํ ํฐ ๊ทธ๋ฆฌ๋์ ๋งคํ๋๋๋ก ์ ๋ฐฉํ ํฌ๋กญ์ ์ ์ฉ โ ํ ํฐ ์์ธก ์์ ํ ๊ณ ์ ํด์๋ ์ฌ์ฉ ๋์ผํ LLM ์ํ์ค ๊ธธ์ด(โค4096) ์์์ ์ด๋ฏธ์งยทํ ์คํธ๋ฅผ ๋ฐฐ์น(pack)ํ ๋ ๊ธธ์ด ์์ธก์ด ๋จ์ํด์ ธ ํ์ต ํจ์จ โ ์ ๋๋ค Color Jitter / CutMix ๋ฑ์ด ์๋๊ฐ?
- ๋ณธ ๊ณผ์ ๋ ์๊ฐโ์ธ์ด ์ ๋ ฌ๊ณผ ํฝ์ -๋ ๋ฒจ ์ฌ์์ฑ์ ๋์์ ์๊ตฌ.
- ๊ฐํ ์ยท์ฝํธ๋ผ์คํธ ๋ณํ์ ํ ์คํธ ์บก์ ๊ณผ์ ๋์์ ํ๋ฆด ์ํ์ด ์ปค์ ๋ณด์์ ์ฆ๊ฐ(๋ฆฌ์ฌ์ด์ฆยทํฌ๋กญยทํจ๋ฉ)๋ง ์ฑํํ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
์์ฝ: Janus๋ 384ร384 px ๋จ์ผ ํด์๋์ ํํ ๋ณด์กด ์ค์ฌ์ ๊ฒฝ๋ ์ฆ๊ฐ(ํจ๋ฉยทํฌ๋กญ)์ผ๋ก ๋ฉํฐ๋ชจ๋ฌ ์ดํด-์์ฑ ๋ ํ์ดํ๋ผ์ธ์ ๋ชจ๋ ๋ง์กฑ์ํค๋ ์ ๋ ฅ ํ ํฐ ์ ํฉ์ฑ์ ํ๋ณดํ๋ค.
ํ๋กฌํํธ๋ชจ๋ธ ์ํคํ ์ฒ
"์ฌ์ฉ๋ ๋ฐฑ๋ณธ ์ํคํ
์ฒ๋ ๋ฌด์์ธ๊ฐ(์: ResNet, ViT, ConvNeXt)? ๊ณต๊ฐ์ ํน์ง(spatial features)์ ์ด๋ป๊ฒ ์ถ์ถ๋๊ณ ์ตํฉ๋๋๊ฐ? ๋ง์ฝ ํ์ง(detection)๋ ๋ถํ (segmentation) ๊ณผ์ ๋ผ๋ฉด, ๋ฐ์ด๋ฉ ๋ฐ์ค๋ ๋ง์คํฌ๋ฅผ ์์ฑํ๋ ๋ฉ์ปค๋์ฆ(์: anchor boxes, region proposal network)์ ์ค๋ช
ํด ์ค."
๐ ํ ์ค ์์ฝ
Janus๋ ViT-๊ณ์ด SigLIP-Large-Patch16-384(์ดํด์ฉ)๊ณผ VQGAN-์คํ์ผ CNN Tokeniser(์์ฑ์ฉ)์ด๋ผ๋ ๋ ๊ฐ์ ๋น์ ๋ฐฑ๋ณธ์ ๋๊ณ , ๋ ๊ฒฝ๋ก์ ์ถ๋ ฅ์ 1-D ํ ํฐ ์ํ์ค๋ก ๋ณํํด DeepSeek-LLM 1.3 B AR-Transformer์ ๋จ์ concat์ผ๋ก ์ฃผ์ ํ๋ค. ๊ณต๊ฐ์ ํน์ง์ ์ดํด ๊ฒฝ๋ก์์๋ 24 ร 24 ํจ์น ํ ํฐ, ์์ฑ ๊ฒฝ๋ก์์๋ 24 ร 24 VQ ์ฝ๋ ๊ฒฉ์๋ก ๋ณด์กด๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ํ์งยท๋ถํ ์ ๋ค๋ฃจ์ง ์์ ๋ฐ์ด๋ฉ-๋ฐ์ค๋ ๋ง์คํฌ๋ฅผ ์ง์ ์์ฑํ์ง ์๋๋ค.
1. ๋ฐฑ๋ณธ ์ํคํ ์ฒ ๊ฐ์
๊ฒฝ๋ก | ๋ฐฑ๋ณธ | ํต์ฌ ๋ธ๋ก | ์ถ๋ ฅ ํ ํฐ/์ฑ๋ | ์ญํ |
---|---|---|---|---|
Multimodal ์ดํด | SigLIP-Large-Patch16-384 (ViT-L/16) | 16 ร 16 ํจ์น ์๋ฒ ๋ฉ โ 24 ร 24 = 576 ํ ํฐ, 1024-d | ๊ณ ์ฐจ์์ semantic feature ์ถ์ถ | |
์ด๋ฏธ์ง ์์ฑ | VQ Tokenizer (CNN Encoder + Vector Quantization, codebook 16 384, downsample ร16) | CNN stack โ 24 ร 24 ํ ํฐ ID, 512-d ์๋ฒ ๋ฉ | ์ ์ฐจ์์ ๊ณต๊ฐ ์ธ๋ถ ํจํด ์์ถ |
๋ ๊ฒฝ๋ก ๊ฒฐ๊ณผ๋ 2-์ธต MLP Adaptor(1024โ4096 / 512โ4096)๋ก LLM ์
๋ ฅ ํฌ๊ธฐ์ ๋ง์ถฐ ํฌ์๋ ๋ค [E_txt; F_u; F_g]
ํ์์ผ๋ก ์ด์ด ๋ถ์ธ๋ค.
2. ๊ณต๊ฐ์ ํน์ง ์ถ์ถยท์ตํฉ ๊ณผ์ (Step-by-Step)
SigLIP ๊ฒฝ๋ก 1.1
I โ โ^{3ร384ร384}
๋ฅผ 16 ร 16 ํจ์น๋ก ๋ถํ โX โ โ^{576ร768}
1.2 12-head ViT L ์ธต์ ๊ฑฐ์ณZ_u โ โ^{576ร1024}
ํ๋. 1.3F_u = A_u(Z_u) โ โ^{576ร4096}
โ์์น ์ธ์ฝ๋ฉ ํฌํจ, ๊ฐ์ฒดยท๊ด๊ณ semantic ๋ณด์กด.VQ Tokeniser ๊ฒฝ๋ก 2.1 CNN-Encoder๊ฐ
I
๋ฅผ 24 ร 24 ํผ์ฒ๋งต์ผ๋ก ๋ค์ด์ํ. 2.2 ๋ฐฑํฐ ์์ํ(VQ)๋ก ๊ฐ 16ร16 ์์ญ์ ์ฝ๋๋ถ ID(c_ij
)๋ก ์นํ. 2.3 ์ฝ๋๋ถ ์๋ฒ ๋ฉE(c)
โF_g = A_g(E(c)) โ โ^{576ร4096}
โํฝ์ /์ง๊ฐ ์ ๋ณด ์์ถ.LLM ์ตํฉ 3.1 ํ ์คํธ ํ ํฐ ์๋ฒ ๋ฉ
E_txt โ โ^{nร4096}
์F_u
,F_g
๋ฅผ ์ํ์ค ๋จ์ concat. 3.2 DeepSeek-LLM 1.3 B๊ฐ AR ๋ฐฉ์์ผ๋ก ๋ค์ ํ ํฐ(ํ ์คํธ ๋๋ VQ ์ฝ๋) ์์ธก.
3. ํ์งยท๋ถํ ๊ด๋ จ ์ฌํญ
Janus๋ ๋ฒ์ฉ QAยทT2I ๋ชจ๋ธ๋ก ์ค๊ณ๋ผ ๋ฐ์ด๋ฉ ๋ฐ์ค(anchor, RPN)๋ ๋ง์คํฌ ์์ฑ ๋ชจ๋์ด ์๋ค.
์ฐ๊ตฌ์๊ฐ ํ์ง/๋ถํ ๋ก ํ์ฅํ๋ ค๋ฉด:
- (i) SigLIP ํจ์น ํ ํฐ ์์ query-based DETR ํค๋๋ฅผ ์น์ด box ํ๊ท,
- (ii) VQ ์ฝ๋ ๋์ mask token์ ์์ธกํ๋๋ก ์ด๋ฏธ์ง ํค๋๋ฅผ ๋ณ๊ฒฝ,
- (iii) ์์ฑ ๊ฒฝ๋ก CNN Decoder๋ฅผ U-Net์ผ๋ก ๊ต์ฒด ํ binary mask ์ถ๋ ฅ, ๊ฐ์ ์ธ๋ถ ํค๋๋ฅผ ์ถ๊ฐํด์ผ ํ๋คโํ์ง๋ง ์ด๋ ๋ณธ ๋ ผ๋ฌธ ๋ฒ์๋ฅผ ๋์ด์ ๋ค.
4. ์ ์ด๋ฐ ์ค๊ณ๊ฐ ์ค์ํ๊ฐ?
- ์ ๋ณด ์ ์๋ ๋งค์นญโViT(๊ณ ํด์ semantic) โ VQ(์ ํด์ spatial) ๊ฐ ์ถฉ๋์ ๊ทผ๋ณธ ์ฐจ๋จํด ์ดํดยท์์ฑ ์์ชฝ ์ฑ๋ฅ์ ๋์์ ๋์ด์ฌ๋ฆผ.
- ์์น ๋ณด์กดโ๋ ๊ฒฝ๋ก ๋ชจ๋ 24ร24 ๊ฒฉ์ ํ ํฐ์ผ๋ก LLM ์ํ์ค ๋ด ์์น ์ ๋ณด๋ฅผ ์ ์งํด cross-attention ์ ์ ๋ฐ ๋งคํ ๊ฐ๋ฅ.
- ํ๋ฌ๊ทธ์ธ ๊ตฌ์กฐโSigLIPยทVQ๋ฅผ EVA-CLIP, MoVQGan ๋ฑ์ผ๋ก ์ฝ๊ฒ ๊ต์ฒดยท์ถ๊ฐํ ์ ์์ด ํด์๋ยท๋ชจ๋ฌ ํ์ฅ์ฑ์ด ๋๋ค.
์ ๋ฆฌํ๋ฉด, Janus๋ ViT์ VQGAN์ ์์์ ์ฅ ์ฑ ํ๋์ Transformer๋ก ์ดํด์ ์์ฑ์ ๋ชจ๋ ์ํํ๋ ๊ตฌ์กฐ์ด๋ฉฐ, ๊ณต๊ฐ ํน์ง์ 24 ร 24 ํ ํฐ ๊ฒฉ์์์ ์์ค ์์ด LLM์ผ๋ก ํ๋ฌ ๋ค์ด๊ฐ๋ค.
ํ๋กฌํํธ๋ชจ๋ธ ํ๊ฐ ๋ฐ ์งํ
"์ ํ๋(accuracy) ์ธ์ ์ด๋ค ๋ค๋ฅธ ์งํ๊ฐ ์ฌ์ฉ๋์๋๊ฐ(์: ํ์ง๋ฅผ ์ํ mAP, ๋ถํ ์ ์ํ IoU)? ์๊ฐ์ ๊ฒฐ๊ณผ์ ๋ํ ์ ์ฑ์ ๋ถ์์ด ์๋๊ฐ? ์๋ค๋ฉด, ๋ชจ๋ธ์ด ์ธ์์ ์ผ๋ก ์ฑ๊ณตํ ์์์ ์คํจํ ์์๋ฅผ ํ๋์ฉ ์ค๋ช
ํด ์ค."
โจ ํต์ฌ ์ ๋ฆฌ (๋จผ์ ์์ฝ)
ํ๊ฐ ์ถ | ์ฃผ์ ์งํ | Janus ์ฑ์ | ๋น๊ณ |
---|---|---|---|
๋ฉํฐ๋ชจ๋ฌ ์ดํด | VQAv2 / GQA Accuracy POPEยทMMBench ๋ฑ ์ ์์(%) | VQAv2 61 %, GQA 59 %, POPE 87 % ๋ฑ | โ1.3 B ํ๋ผ๋ฏธํฐโ ๋๊ธ ๋ชจ๋ธ ์ค ์ต๊ณ |
์ด๋ฏธ์ง ์์ฑ ํ์ง | FIDโ (COCO-30K, MJHQ-30K) | 8.53 / 10.10 | ์์์๋ก ์ข์ โ Show-o 9.24 ๋ณด๋ค โ |
ํ๋กฌํํธ ์ค์ | GenEval Accuracy โ (6 ๊ฐ ์์ฑ) | Overall 61 % โ SDXL 55 % ๋ณด๋ค โ | Counting 0.30 ๋ฑ ์ธ๋ถ ์์ฑ ๊ณต๊ฐ |
์ถ๊ฐ ๋ถ์ | Ablation โ COCO FID, POPE ๋ฑ | SigLIP+VQ ๋ถ๋ฆฌ ๋ชจ๋ธ์ด ํฌํจ | ์๊ฐยท์ธ์ด ๊ฒฝ๋ก ๋ถ๋ฆฌ ํจ๊ณผ ํ์ธ |
1. ์ฌ์ฉ๋ ์ ๋ ์งํ (Accuracy ์ธ)
๋ฒ์ฃผ | ์งํ | ๋ชฉ์ | ์ ์ค์ํ๊ฐ? |
---|---|---|---|
Frรฉchet Inception Distance (FID) โ | ์ํยท์ค์ ๋ถํฌ ๊ฐ 2-์ฐจ ํต๊ณ ๊ฑฐ๋ฆฌ | ์์ฑ ์ด๋ฏธ์ง์ ์ธ๋ถ ์ง๊ฐ & ๋ค์์ฑ ํ๊ฐ | GANยทT2I ์ปค๋ฎค๋ํฐ ํ์ค, ์์น๊ฐ ์์์๋ก ์ค์ ์ ์ ์ฌ |
GenEval ์ธ๋ถ ์ ํ๋ โ | Single Obj, Two Obj, Counting, Color ๋ฑ 6 ์์ฑ๋ณ ์ ํ๋ | โํ๋กฌํํธ ์ ๋ฌธ์ฅ์ ์ ์ฝโ์ ์ผ๋ง๋ ์ถฉ์คํ ๋ฐ์ํ๋์ง | ๋จ์ ํ๊ท Accuracy๊ฐ ๊ฐ๋ ค์ฃผ๋ ๋ณตํฉยท์๋ ์ฝ์ ๋๋ฌ๋ |
POPE / MME / MMBench ์ ์ | ๊ฐ์ฒด ์์นยท์์ฑ/์ง์ ์ง๋ฌธยท์ค๋ช ๋ฅ๋ ฅ ํ๊ฐ | ๊ณ ๋๋ VQA์ ๋ํ ์ดํด๋ ฅ | ์ ํ๋ ์ธ์ โ๋ถ๋ถ ์ ์โ ํฉ์ฐ ๋ฐฉ์์ผ๋ก fine-grained ์ฑ๋ฅ ๋น๊ต |
SEED Bench, MM-Vet ๋ฑ | ์ํฉ ์ธ์ยท์ถ๋ก ์ ๋ต๋ฅ | ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋๋ฉ์ธ ์ผ๋ฐํ | ๊ด๋ฒ์ํ ์ดํด ํ์คํฌ์ ๋ํ ๋ชจ๋ธ ์ผ๊ด์ฑ ํ๋ณด ํ์ธ |
โป ํ์ง(mAP)ยท๋ถํ (IoU) ์งํ๋ ์ด ๋ ผ๋ฌธ ๋ฒ์(์ดํดยท์์ฑ) ๋ฐ์ด๋ผ ์ฌ์ฉ๋์ง ์์๋ค.
2. ์ ์ฑ์ (qualitative) ๊ฒฐ๊ณผ โ ์ ์๊ฐ ๋ณด์ฌ์ค ์ฌ๋ก
2-1 ์ฑ๊ณต ์ฌ๋ก (Figure 4)
ํ๋กฌํํธ: โSydney Opera House์ Eiffel Tower๊ฐ ๋๋ํ, ๋ฐ ๊ณ ํ ์คํ๋ฆฌ๋์ดํธ ํ๋โ
Janus ์ถ๋ ฅ: 384ยฒ ํด์๋์๋ ์ด๊ณ ๋ฐ๋ ๋ณ ์์ฉ๋์ดยท๊ฑด๋ฌผ ์ค๋ฃจ์ฃ ์ ํํ ์ฌํ, ๋ ๋๋๋งํฌ ์์ฑ ๋๋น๋ ์ ์ง
์ ๋๋ณด์ด๋?
- ๋ณตํฉ ๊ฐ์ฒด ๋ฐฐ์น(๋ ๊ฑด์ถ๋ฌผ) + ์คํ์ผ ๋ณํ(๋ก์ผ๋ง ํ๋)์ ํ ์ฅ์์ ๋ง์กฑ.
- ๋์ผ ํ๋กฌํํธ์์ LlamaGen / SDXL์ ๋ฐฐ๊ฒฝยท๊ตฌ์กฐ๋ฌผ ํ์ชฝ์ด ํ๋ฆฟํ๊ฒ ์์ โ Janus๊ฐ ์ง์ ์ค์๋ ฅ ์ฐ์.
2-2 ์คํจ ๋๋ ์ฝ์ ์ฌ๋ก (Counting ์์ฑ)
GenEval Counting ์นดํ ๊ณ ๋ฆฌ ์ ํ๋ 0.30 ์ Single-Obj 0.97 ๋๋น ๊ธ๊ฐ .
์ ์๋ค์ ์ด๋ฏธ์ง๋ฅผ ๋ฐ๋ก ์ ์ํ์ง ์์์ง๋ง, โ์ธ ๋ง๋ฆฌ ๊ณ ์์ด๋ฅผ ๊ทธ๋ ค๋ผโ ๊ฐ์ ์๋ ์กฐ๊ฑด์์ ๊ฐ์ฒด ์๋ฅผ ์์ฃผ ํ๋ฆฌ๊ฑฐ๋ ๋๋ฝ.
์์ธ:
- VQ ํ ํฌ๋์ด์ ร16 ๋ค์ด์ํ๋ก ์ํยท๋ฐ๋ณต ๊ฐ์ฒด ํ ํฐ ๊ฐ ํผ์ .
- AR ๋์ฝ๋ฉ์ด๋ผ ์ด์ ํ ํฐ ์ค๋ฅ๊ฐ ๋์ ๋๋ฉฐ ๋๋ฝยท์ค๋ณต ๋ฐ์.
3. ๋ถ์ & ์์ฌ์
์ ๋-์ ์ง ๋ณด์
- FID ๋ฐ GenEval ์์ฑ๋ณ ์ ํ๋๋ฅผ ํจ๊ป ์ ์ํด ํ์งยทํ๋กฌํํธ ์ค์๋ฅผ ๋ถ๋ฆฌ ํ๊ฐํ ์ ์ด ํน์ง.
์ฝ์ ํ์ ์ Counting ์งํ๊ฐ ์ ์ฉ
- ์ข ํฉ ์ ํ๋๋ง ๋ณด๋ฉด ์จ๊ฒจ์ง ๋ฌธ์ ๋ฅผ ์์ฑ๋ณ ์งํ๊ฐ ๋๋ฌ๋ โ ํ์ ์ฐ๊ตฌ์์ Fine-grained Tokenizer / Hybrid Diffusion Head ๋์ ํ์.
๋ฉํฐ๋ชจ๋ฌ ์ดํด ํธํฅ
- POPEยทMMBench ๋ฑ ์ดํด ํ์คํฌ ์ ์๋ ๋์ง๋ง, ๋ฏธ์ธ ํ ์ค์ฒ ์์ฑ(์ FID)๊ณผ ํธ๋ ์ด๋์คํ ๊ด์ธก โ ์๊ฐ ๊ฒฝ๋ก ๋ถ๋ฆฌ์ ์ฅ๋จ.
๊ฒฐ๋ก : Janus๋ FID 8.5ยทGenEval 61 %๋ก 1 B๊ธ ๋ชจ๋ธ ์ต์์ ์ฑ์ ์ ๋ฌ์ฑํ์ง๋ง, ๊ฐ์ฒด ์ ์ธ๊ธฐยท๋ณต์กํ ๊ธฐํ์์๋ ์ฌ์ ํ ์ค์ฐจ๊ฐ ๋์ ๋๋ค. ์ ์ฑ์ ์์๋ ๊ณ ํด์ ์คํ์ผ ๋ณํ ์ฑ๊ณต๊ณผ, Counting ์ค๋ฅ ์ฌ๋ก๊ฐ ์ด๋ฅผ ์ ๋ณด์ฌ์ค๋ค.
๋๊ธ