๋…ผ๋ฌธ ๋งํฌ

๐Ÿ“ Janus: ๋‘ ์–ผ๊ตด์˜ ์ธ์ฝ”๋”๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด + ์ƒ์„ฑ์˜ ๋”œ๋ ˆ๋งˆ๋ฅผ ๊นฌ 1.3 B ๋ชจ๋ธ

ํ•œ ์ค„ ์š”์•ฝ (TL;DR)

Janus๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด์™€ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์— ์š”๊ตฌ๋˜๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ํ‘œํ˜„ โ€• ๊ณ ์ฐจ์› semantic vs. ์ €์ฐจ์› texture โ€• ์˜ โ€œํ‘œํ˜„ ์ถฉ๋Œโ€์„ ๋“€์–ผ ๋น„์ „ ์ธ์ฝ”๋”(SigLIP + VQ Tokenizer)๋กœ ๋ถ„๋ฆฌํ•จ์œผ๋กœ์จ, ๋‹จ 1.3 B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์ด ๊ธฐ์กด ๋‹จ์ผ-์ธ์ฝ”๋” ํ†ตํ•ฉ ๋ชจ๋ธ๋ณด๋‹ค **์ดํ•ด +41 %, FID โˆ’8 %**๋ฅผ ๋™์‹œ์— ๋‹ฌ์„ฑํ•œ ์ฒซ ์‚ฌ๋ก€๋‹ค.


ํ•ต์‹ฌ ์•„์ด๋””์–ด

ํ•œ Transformer, ๋‘ ์ธ์ฝ”๋” SigLIP-ViT๊ฐ€ ๋ฝ‘์€ semantic ํ† ํฐ๊ณผ VQ-GAN์ด ๋ฝ‘์€ spatial ํ† ํฐ์„ ํ•œ ์‹œํ€€์Šค๋กœ ๋ถ™์—ฌ ํ•˜๋‚˜์˜ autoregressive LLM์ด ํ…์ŠคํŠธยท์ด๋ฏธ์ง€ ํ† ํฐ์„ ๋ชจ๋‘ ์˜ˆ์ธกํ•œ๋‹ค.


๋ฐฐ๊ฒฝ: ๊ทธ๋“ค์ด ํ•ด๊ฒฐํ•œ ๋ฌธ์ œ

ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(Chameleon, Show-o ๋“ฑ)์€ **โ€œํ•˜๋‚˜์˜ ๋น„์ „ ์ธ์ฝ”๋”โ€**๋กœ ์ดํ•ด์™€ ์ƒ์„ฑ์„ ๋ชจ๋‘ ์ฒ˜๋ฆฌํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜

์š”๊ตฌ์ดํ•ด (Q&A)์ƒ์„ฑ (T2I)
ํ‘œํ˜„ ์ž…์ž๋„์ถ”์ƒยท๊ด€๊ณ„ยทํ…์ŠคํŠธํ”ฝ์…€ยท์งˆ๊ฐยท์œ„์น˜
์ตœ์  ์ธ์ฝ”๋”CLIPยทSigLIPVQยทCNNยทDiffusion

โ€ฆ์ฆ‰, ์ƒ์ถฉ๋˜๋Š” ๋‘ ํ‘œํ˜„์„ ํ•œ ์ธ์ฝ”๋”๊ฐ€ ๋– ์•ˆ์œผ๋ฉด์„œ ์ดํ•ด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํฌ์ƒ๋˜์—ˆ๋‹ค.


์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•: Janus

๊ตฌ์„ฑ ์š”์†Œ์—ญํ• 
SigLIP-Large-Patch16-384์ดํ•ด์šฉ ViT (576 ํŒจ์น˜, 1024-d)
VQ Tokenizer (ร—16 downsample)์ƒ์„ฑ์šฉ CNN ์ธ์ฝ”๋” (576 ID, 512-d)
2-์ธต MLP Adaptor ร— 2๋‘ ์ธ์ฝ”๋” ์ถœ๋ ฅ์„ 4096-d๋กœ ํˆฌ์˜
DeepSeek-LLM 1.3 Bํ…์ŠคํŠธยทVQ ID๋ฅผ AR ๋ฐฉ์‹์œผ๋กœ ์˜ˆ์ธก

์ตœ์ข… ์ž…๋ ฅ ์‹œํ€€์Šค S = [E_txt ; A_u(SigLIP(I)) ; A_g(E_VQ(I))].


์ž‘๋™ ์›๋ฆฌ: ๊ตฌ์ฒด์ ์ธ ์˜ˆ์‹œ๋กœ ์‚ดํŽด๋ณด๊ธฐ

์˜ˆ์‹œ โ‘  ์ดํ•ด (QA)

  1. SigLIP โ†’ [576 ํ† ํฐ; โ€œ๊ณ ์–‘์ด, ๋นจ๊ฐ„ ๊ณตโ€ ์˜๋ฏธ ํฌํ•จ]
  2. Adaptor โ†’ LLM โ†’ โ€œ๊ณต์€ ๋นจ๊ฐ„์ƒ‰์ž…๋‹ˆ๋‹ค.โ€

์˜ˆ์‹œ โ‘ก ์ƒ์„ฑ (T2I)

  1. ํ”„๋กฌํ”„ํŠธ โ€œDraw three red hearts.โ€
  2. LLM์ด 576 ๊ฐœ์˜ VQ ID๋ฅผ ์˜ˆ์ธก
  3. VQ Decoder๊ฐ€ 384ยฒ ์ด๋ฏธ์ง€ ๋ณต์›
  4. CFG 5.0์œผ๋กœ ํ€„๋ฆฌํ‹ฐ ์—…

์„ฑ๋Šฅ ๊ฒ€์ฆ: ์ฃผ์š” ๊ฒฐ๊ณผ

1. ์ดํ•ด & ์ƒ์„ฑ ํ•œ๋ˆˆ ๋น„๊ต (1.3 B ๋ชจ๋ธ)

๋ชจ๋ธMMEโ†‘GQAโ†‘GenEvalโ†‘COCO-FIDโ†“
Show-o94948.753 %9.24
Janus1338 (+41 %)59.1 (+30 %)61 %8.53 (-8 %)

2. Ablation โ€” ๋“€์–ผ ์ธ์ฝ”๋” ํšจ๊ณผ

์„ค์ •์ธ์ฝ”๋”MMECOCO-FID
Exp-AVQ ๋‹จ๋…9498.72
Exp-DSigLIP + VQ13388.53

โ†’ ํ‘œํ˜„ ๋ถ„๋ฆฌ๋งŒ์œผ๋กœ ์ดํ•ดยท์ƒ์„ฑ ๋ชจ๋‘ ๋™์‹œ์— ์ƒ์Šน.

3. ํ”„๋กฌํ”„ํŠธ ์ค€์ˆ˜ (GenEval 6 ์†์„ฑ)

์†์„ฑ์ •ํ™•๋„
Single Obj0.97
Counting0.30 (์•ฝ์ )
Two Obj0.79

์šฐ๋ฆฌ์˜ ๊ด€์ : ๊ฐ•์ , ํ•œ๊ณ„, ๊ทธ๋ฆฌ๊ณ  ์ด ์—ฐ๊ตฌ๊ฐ€ ์ค‘์š”ํ•œ ์ด์œ 

๐Ÿ’ช ๊ฐ•์ 

โš ๏ธ ํ•œ๊ณ„

๐ŸŒŸ ์ค‘์š”์„ฑ

Janus๋Š” **โ€œ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ GPTโ€**๋กœ ๊ฐ€๋Š” ํ•ต์‹ฌ ๋ณ‘๋ชฉ โ€• ํ†ตํ•ฉ ๋ชจ๋ธ์˜ ํ‘œํ˜„ ์ถฉ๋Œ โ€• ์„ ์„ค๊ณ„ ํ•œ ๋ฐฉ์œผ๋กœ ์ œ๊ฑฐํ–ˆ๋‹ค. ๋ชจ๋ฐ”์ผ NPUยท์˜จ-๋””๋ฐ”์ด์Šค LLM ์‹œ๋Œ€์— 1 B-๊ธ‰ ์–‘๋ฉด ์ „๋ฌธ๊ฐ€๊ฐ€ ์—ด๋ฆด ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.


๋‹ค์Œ ๋‹จ๊ณ„๋Š”?: ์•ž์œผ๋กœ์˜ ๊ธธ

  1. ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํ† ํฌ๋‚˜์ด์ € (16ร— + 4ร—) โ†’ FID < 7 @ 512ยฒ
  2. AR + ๋ณ‘๋ ฌ Diffusion ํ—ค๋“œ โ†’ 10ร— ๋น ๋ฅธ ์ƒ์„ฑ
  3. ์ปจํ…์ŠคํŠธ 16 k+ & ์žฅ๋ฌธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ (Hydragen-style prefix)
  4. ๋‹ค๊ตญ์–ดยท์ „๋ฌธ ๋„๋ฉ”์ธ Curriculum์œผ๋กœ ํŽธํ–ฅ ์™„ํ™”
  5. ์ƒˆ ๋ชจ๋‹ฌ ํ”Œ๋Ÿฌ๊ทธ์ธ: 3D, ์˜ค๋””์˜ค, EEG โ€ฆ โ€œTransformer OSโ€ๅŒ–

Bottom line: Janus๋Š” *โ€œ๋‘ ์–ผ๊ตด์˜ ์‹ โ€*์ด๋ผ๋Š” ์ด๋ฆ„์ฒ˜๋Ÿผ, ํ•˜๋‚˜์˜ Transformer์— ๋‘ ๊ฐ€์ง€ ์‹œ์„ ์„ ๋ถ€์—ฌํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI์˜ ๋‹ค์Œ ์žฅ์„ ์—ด์—ˆ๋‹ค. ์ด์ œ ๊ณผ์ œ๋Š” ํ•ด์ƒ๋„ยท์†๋„ยท๋‹ค์–‘์„ฑ์ด๋ผ๋Š” ์„ธ ๊ณ ๊ฐœ๋ฅผ ์–ธ์ œ, ์–ด๋–ป๊ฒŒ ๋„˜๋А๋ƒ๋‹ค.


ํ† ๊ธ€์„ ํด๋ฆญํ•˜๋ฉด ๋…ผ๋ฌธ์— ๋Œ€ํ•œ ์ž์„ธํ•œ LLM ์งˆ์˜์‘๋‹ต ๋‚ด์šฉ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ–ถ๏ธํด๋ฆญํ•˜์—ฌ ํŽผ์น˜๊ธฐ

ํ”„๋กฌํ”„ํŠธ 1.1.1 (์—ฐ๊ตฌ์˜ ๊ณต๋ฐฑ)

PLAINTEXT
"๋…ผ๋ฌธ์˜ 'Introduction'๊ณผ 'Related Work' ์„น์…˜์„ ๋ถ„์„ํ•˜์—ฌ, ์ด ์—ฐ๊ตฌ๊ฐ€ ๋ช…์‹œ์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” ํ•ต์‹ฌ์ ์ธ ์—ฐ๊ตฌ ๊ณต๋ฐฑ(research gap), ๊ธฐ์กด ์—ฐ๊ตฌ์˜ ๊ฒฐ์ •์  ํ•œ๊ณ„, ๋˜๋Š” ๋ฏธํ•ด๊ฒฐ ์งˆ๋ฌธ์ด ๋ฌด์—‡์ธ์ง€ ์„ค๋ช…ํ•ด ์ค˜. ์ €์ž๋“ค์ด ์„ค๋ช…ํ•˜๋Š”, ์ด ๋…ผ๋ฌธ ์ถœํŒ ์‹œ์ ์˜ '์ตœ์‹  ๊ธฐ์ˆ (state of the art)'์€ ์–ด๋–ค ์ƒํƒœ์˜€๋Š”์ง€ ์š”์•ฝํ•ด ์ค˜."
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

๐Ÿš€ ํ•œ ์ค„ ์••์ถ• ๊ฒฐ๋ก  (TL;DR)

ํ˜„ํ–‰ ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์€ **โ€œํ•˜๋‚˜์˜ ๋น„์ „ ์ธ์ฝ”๋”โ€**๋กœ ์ดํ•ดยท์ƒ์„ฑ ๋‘ ๊ณผ์ œ๋ฅผ ๋™์‹œ์— ๋‹ค๋ฃจ๋ ค๋‹ค ํ‘œํ˜„ ์ถฉ๋Œ์ด ๋ฐœ์ƒํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์ง„๋‹ค. Janus๋Š” ์ฒ˜์Œ์œผ๋กœ ๋น„์ „ ์ธ์ฝ”๋”ฉ์„ ์ด์ค‘ํ™”(Decoupling) ํ•˜์—ฌ ๋ฌธ์ œ์ ์„ ๊ทผ๋ณธ์ ์œผ๋กœ ํ•ด๊ฒฐํ–ˆ๊ณ , 1.3 B ๋ชจ๋ธ๋กœ๋„ ๊ธฐ์กด ๋‹จ์ผ ์ธ์ฝ”๋” ํ†ตํ•ฉ ๋ชจ๋ธ๋ณด๋‹ค ์ดํ•ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ตœ๋Œ€ +41 % (MME) ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ๋™์‹œ์— ์ƒ์„ฑ ํ’ˆ์งˆ(FID 8.53@COCO-30K)๋„ ์œ ์ง€ํ•œ๋‹ค.


1. ํ•ต์‹ฌ ์—ฐ๊ตฌ ๊ณต๋ฐฑ (Research Gap)

๊ตฌ๋ถ„๊ธฐ์กด ์ ‘๊ทผ๋ฌธ์ œ์ Janus๊ฐ€ ๊ฒจ๋ƒฅํ•œ ๊ณต๋ฐฑ
์ธ์ฝ”๋” ๊ตฌ์„ฑํ•˜๋‚˜์˜ ๋น„์ „ ์ธ์ฝ”๋”๋ฅผ ์ดํ•ดยท์ƒ์„ฑ์— ๊ณต๋™ ์‚ฌ์šฉ
ex) Chameleon, VILA-U, Show-o
์„œ๋กœ ๋‹ค๋ฅธ ์ •๋ณด ์ž…์ž๋„(granularity) ์š”๊ตฌ โ†’ ํ‘œํ˜„ ๊ณต๊ฐ„ ์ถฉ๋Œ
โ†’ ์ดํ•ด ์„ฑ๋Šฅ ๊ธ‰๋ฝยทํƒ€ํ˜‘ ํ•„์š”
์ดํ•ด์šฉ SigLIP ์ธ์ฝ”๋” + ์ƒ์„ฑ์šฉ VQ ํ† ํฌ๋‚˜์ด์ € ์ด์›ํ™” โ†’ ์ถฉ๋Œ ์ œ๊ฑฐ
ํ†ตํ•ฉ ๋ฐฉ์‹์ดํ•ด ๋ชจ๋ธ + ์™ธ๋ถ€ ํ™•์‚ฐ(Emu ๋“ฑ) โ†’ โ€œ๊ฐ€์งœโ€ ํ†ตํ•ฉLLM ๋‚ด๋ถ€๋Š” ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ถˆ๊ฐ€, diffusion ์„ฑ๋Šฅ์— ์˜์กด๋‹จ์ผ AR Transformer๊ฐ€ ํ…์ŠคํŠธยท์ด๋ฏธ์ง€ ํ† ํฐ ๋ชจ๋‘ ์ง์ ‘ ์ƒ์„ฑ
ํšจ์œจ์„ฑยทํ™•์žฅ์„ฑ์ธ์ฝ”๋” ์„ ํƒ ์ œ์•ฝ(ํ•œ์ชฝ์— ๋งž์ถ”๋ฉด ๋‹ค๋ฅธ์ชฝ ์†ํ•ด)์ž‘์—…๋ณ„ ์ตœ์  ์ธ์ฝ”๋”๋ฅผ ๋ชป ์‚ฌ์šฉ๋””์ปคํ”Œ๋ง์œผ๋กœ ์œ ์—ฐํ•œ ์ธ์ฝ”๋” ๊ต์ฒดยท๋ชจ๋‹ฌ ์ถ”๊ฐ€ ๊ฐ€๋Šฅ (์˜ˆ: EEG, Point Cloud)

โ€œ๊ธฐ์กด ํ†ตํ•ฉ ๋ชจ๋ธ์€ ๋น„์ „ ์ธ์ฝ”๋”๊ฐ€ ๊ณ ์ฐจ่ฏญ์˜่ฏญ์  ์ถ”์ƒ ํ‘œํ˜„(์ดํ•ด)๊ณผ ์ €์ฐจ์› ๊ณต๊ฐ„์  ์„ธ๋ถ€(์ƒ์„ฑ)๋ผ๋Š” ์ƒ์ถฉ ์š”๊ตฌ๋ฅผ ๋ชจ๋‘ ๋งŒ์กฑํ•ด์•ผ ํ•ด์„œ ๋ณธ์งˆ์  ๊ฐˆ๋“ฑ์ด ๋ถˆ๊ฐ€ํ”ผํ•˜๋‹ค.โ€

Janus๋Š” โ€œ์ธ์ฝ”๋” ์ถฉ๋Œ ์ž์ฒด๋ฅผ ์ œ๊ฑฐโ€ ํ•˜๋Š” ์ฒซ ์‹œ๋„๋กœ, ํ†ตํ•ฉ ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๊ฐ ๊ณผ์ œ์— ์ตœ์ ํ™”๋œ ํ‘œํ˜„์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋Š” ์—ฐ๊ตฌ ๋นˆ์นธ์„ ๋ฉ”์šด๋‹ค.


2. ๊ธฐ์กด ์—ฐ๊ตฌ์˜ ๊ฒฐ์ •์  ํ•œ๊ณ„

  1. ๋‹จ์ผ ์ธ์ฝ”๋” ํ†ตํ•ฉ ๋ชจ๋ธ (Chameleon 7 B, Show-o 1.3 B, VILA-U 7 B)

    • ์ดํ•ด ๋ฒค์น˜๋งˆํฌ์—์„œ LLaVA-v1.5 7 B ๋Œ€๋น„ ์ตœ๋Œ€ โ€“15 โˆผ โ€“20 pt ์„ฑ๋Šฅ ์—ด์„ธ ๋ณด๊ณ .
    • Ablation ๊ฒฐ๊ณผ: ๋™์ผ ์ธ์ฝ”๋”๋กœ ์ดํ•ดยท์ƒ์„ฑ์„ ํ•จ๊ป˜ ํ•™์Šตํ•˜๋ฉด ์ดํ•ด ์„ฑ๋Šฅ์ด **35 โ†’ 26 ์ (โ€“26 %)**์œผ๋กœ ๊ธ‰๋ฝ.
  2. โ€œํˆด ํ˜ธ์ถœโ€ ๋ฐฉ์‹ (Emu, LaVIT ๋“ฑ)

    • LLM์ด diffusion ๋ชจ๋ธ์„ ์™ธ๋ถ€ ๋„๊ตฌ๋กœ ํ˜ธ์ถœ โ†’ ์ง„์ •ํ•œ end-to-end ํ†ตํ•ฉ ์•„๋‹˜.
    • ์ƒ์„ฑ ํ’ˆ์งˆ์€ diffusion SOTA์— ์ข…์†๋˜๊ณ , ํŒŒ์ดํ”„๋ผ์ธ ๋ณต์žกยท์ถ”๋ก  ์ง€์—ฐ.
  3. ์ž‘์—… ํŠนํ™” ๋ชจ๋ธ

    • ์ดํ•ด ์ „์šฉ(LLaVA-v1.5 7 B, Qwen-VL 7 B)๊ณผ ์ƒ์„ฑ ์ „์šฉ(SDXL 2.6 B ๋“ฑ)์ด ๊ฐ๊ฐ๋งŒ ์ž˜ํ•จ โ†’ ๋ฒ”์šฉ์„ฑ ๊ฒฐ์—ฌ ๋ฐ ์ค‘๋ณต ํŒŒ๋ผ๋ฏธํ„ฐ.

3. ๋…ผ๋ฌธ ์ถœํŒ ์‹œ์ (2024 Q4) State-of-the-Art ์ •๋ฆฌ

๋ถ„๋ฅ˜๋Œ€ํ‘œ ๋ชจ๋ธํŒŒ๋ผ๋ฏธํ„ฐ๋น„์ „ ์ธ์ฝ”๋” ์ „๋žต์ดํ•ด(MME)์ƒ์„ฑ(FID@COCO)ํ•œ๊ณ„
์ดํ•ด ์ „์šฉLLaVA-v1.57 BSigLIP1510.7โ€“์ƒ์„ฑ ๋ถˆ๊ฐ€
์ƒ์„ฑ ์ „์šฉSDXL2.6 BDiffusionโ€“7.32์ดํ•ด ๋ถˆ๊ฐ€
ํ†ตํ•ฉ(๋‹จ์ผ ์ธ์ฝ”๋”)Show-o1.3 BVQ Tokenizer948.49.24์ดํ•ด ์—ด์„ธ(-41 %)
ํ†ตํ•ฉ(ํˆด ์ฝœ)Emu13 BSigLIP + diffusionโ€“11.66์™ธ๋ถ€ ๋ชจ๋ธ ์˜์กด
โžก Janus1.3 BSigLIP (์ดํ•ด) + VQ (์ƒ์„ฑ)1338.08.53์ธ์ฝ”๋” ์ถฉ๋Œ ํ•ด์†Œ
  • ์ดํ•ด ์„ฑ๋Šฅ: Janus 1.3 B๊ฐ€ Show-o 1.3 B ๋Œ€๋น„ +41 % (1338 vs 948), LLaVA-v1.5 7 B๊ธ‰๊ณผ ๊ทผ์ ‘.
  • ์ƒ์„ฑ ์„ฑ๋Šฅ: ๋‹จ์ผ ์ธ์ฝ”๋” ํ†ตํ•ฉ ๋ชจ๋ธ๊ณผ ๋™๋“ฑ, ์ƒ์„ฑ ์ „์šฉ ๋ชจ๋ธ ๋Œ€๋น„ FID ฮ”โ‰ˆ+1 โ€“ 2.
  • ํŒŒ๋ผ๋ฏธํ„ฐ ํšจ์œจ: 7 B ์ดํ•ด ๋ชจ๋ธ ์„ฑ๋Šฅ์„ 1.3 B๋กœ ๋‹ฌ์„ฑ, GPU ๋ฉ”๋ชจ๋ฆฌยท์ถ”๋ก  ์‹œ๊ฐ„ ์ ˆ๊ฐ.

4. ์š”์•ฝ ๋ฐ ์˜๋ฏธ

  • ์—ฐ๊ตฌ ๊ณต๋ฐฑ: โ€œํ‘œํ˜„ ๊ณต๊ฐ„ ์ถฉ๋Œโ€ ๋ฅผ ์ธ์ฝ”๋” ๋ถ„๋ฆฌ๋กœ ํ•ด๊ฒฐํ•œ ์ตœ์ดˆ ์‚ฌ๋ก€.
  • ์‹ค์šฉ ๊ฐ€์น˜: ์ž‘์€ ๋ชจ๋ธ๋กœ๋„ ์ดํ•ดยท์ƒ์„ฑ ๋‘˜ ๋‹ค ๋†’์€ ํ’ˆ์งˆ โ†’ ๋ชจ๋ฐ”์ผยท์ž„๋ฒ ๋””๋“œ NPU ์ ์šฉ ๊ฐ€๋Šฅ.
  • ํ–ฅํ›„ ํ™•์žฅ: ๋ชจ๋‹ฌ๋‹น ์ธ์ฝ”๋” ํ”Œ๋Ÿฌ๊ทธ์ธ ๊ตฌ์กฐ๋กœ, ๊ณ ํ•ด์ƒ๋„ ์ดํ•ด(EVA-CLIP), ์„ธ๋ฐ€ ์ƒ์„ฑ(MoVQGan), 3D ํฌ์ธํŠธํด๋ผ์šฐ๋“œ ๋“ฑ ์†์‰ฝ๊ฒŒ ์ง€์›.

๊ฒฐ๋ก ์ ์œผ๋กœ Janus๋Š” โ€œํ•˜๋‚˜์˜ Transformer, ๋‘ ๊ฐœ์˜ ์‹œ์„ โ€์ด๋ผ๋Š” ์„ค๊ณ„๋กœ ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ์ƒˆ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•œ๋‹ค.

ํ”„๋กฌํ”„ํŠธ 1.1.2 (ํ•ต์‹ฌ ๊ฐ€์„ค)

PLAINTEXT
"์ด ๋…ผ๋ฌธ์˜ ์ค‘์‹ฌ ๊ฐ€์„ค(central hypothesis) ๋˜๋Š” ํ•ต์‹ฌ ์ฃผ์žฅ์€ ๋ฌด์—‡์ธ๊ฐ€? '์ €์ž๋“ค์€ [์ œ์•ˆ ๊ธฐ๋ฒ•]์„ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ [๊ธฐ์กด ํ•œ๊ณ„์ ]์„ ๊ทน๋ณตํ•˜๋Š” [๊ตฌ์ฒด์  ๊ฒฐ๊ณผ]๋ฅผ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค'์™€ ๊ฐ™์€ ํ˜•์‹์œผ๋กœ, ๋ช…ํ™•ํ•˜๊ณ  ๊ฐ„๊ฒฐํ•œ ํ•œ ๋ฌธ์žฅ์œผ๋กœ ์„œ์ˆ ํ•ด ์ค˜."
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

์ €์ž๋“ค์€ ๋น„์ „ ์ธ์ฝ”๋” ์ด์›ํ™”โ€”๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด์šฉ SigLIP ์ธ์ฝ”๋”์™€ ์ƒ์„ฑ์šฉ VQ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๋ณ‘๋ ฌ๋กœ ๋ฐฐ์น˜ํ•˜๋Š” Janus ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๋‹จ์ผ ์ธ์ฝ”๋” ํ†ตํ•ฉ ๋ชจ๋ธ์—์„œ ๋ฐœ์ƒํ•˜๋˜ ํ‘œํ˜„ ๊ณต๊ฐ„ ์ถฉ๋Œยท์ดํ•ด ์„ฑ๋Šฅ ์ €ํ•˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , 1.3 B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ๋กœ๋„ MME 1338(+41 % ํ–ฅ์ƒ)๊ณผ COCO-30K FID 8.53 ์ˆ˜์ค€์˜ ์ดํ•ดยท์ƒ์„ฑ ๋™์‹œ SOTA๋ฅผ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.

ํ”„๋กฌํ”„ํŠธ 1.2.1 (๋…์ฐฝ์„ฑ ์‹๋ณ„)

PLAINTEXT
 "๋…ผ๋ฌธ ์ „์ฒด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, ๊ฐ€์žฅ ์ค‘์š”ํ•˜๊ณ  ๋…์ฐฝ์ ์ธ ๊ธฐ์—ฌ(contribution) 1~3๊ฐ€์ง€๋ฅผ ๊ตฌ๋ณ„๋˜๋Š” ํ•ญ๋ชฉ์œผ๋กœ ๋‚˜์—ดํ•ด ์ค˜. ๊ฐ๊ฐ์ด ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜ ๊ตฌ์„ฑ์š”์†Œ, ์ƒˆ๋กœ์šด ํ•™์Šต ๊ธฐ๋ฒ•, ์ƒˆ๋กœ์šด ์ด๋ก ์  ํ†ต์ฐฐ, ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹, ๋˜๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ์˜ ์ƒˆ๋กœ์šด ์ ์šฉ ์ค‘ ์–ด๋””์— ํ•ด๋‹นํ•˜๋Š”์ง€ ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„ํ•ด ์ค˜."
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

๐Ÿš€ ํ•œ ์ค„ ์š”์•ฝ

Janus๋Š” โ€œ์ดํ•ด์šฉ SigLIP + ์ƒ์„ฑ์šฉ VQโ€ ๋“€์–ผ ๋น„์ „ ์ธ์ฝ”๋”์™€ ์„ธ ๋‹จ๊ณ„(3-Stage) ํ†ตํ•ฉ ํ•™์Šต๋งŒ์œผ๋กœ 1.3 B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์ด ๊ธฐ์กด ๋‹จ์ผ ์ธ์ฝ”๋” ํ†ตํ•ฉ ๋ชจ๋ธ Show-o ๋Œ€๋น„ MME +41 % (949 โ†’ 1338), **COCO-30K FID โ€“8 % (9.24 โ†’ 8.53)**๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ๋ชจ๋‹ฌ ํ™•์žฅ์„ ํ”Œ๋Ÿฌ๊ทธ์ธ์ฒ˜๋Ÿผ ์ง€์›ํ•œ๋‹ค.


๐Ÿ† ๊ฐ€์žฅ ์ค‘์š”ํ•˜๊ณ  ๋…์ฐฝ์ ์ธ ๊ธฐ์—ฌ

#๊ธฐ์—ฌ ์š”์•ฝ๋ถ„๋ฅ˜
1๋“€์–ผ ๋น„์ „ ์ธ์ฝ”๋” ๋””์ปคํ”Œ๋ง: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด์—๋Š” SigLIP-Large๋ฅผ, ์ƒ์„ฑ์—๋Š” VQ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๋ณ‘๋ ฌ๋กœ ๋ฐฐ์น˜ํ•ด ๋™์ผ Transformer ์•ˆ์—์„œ ๋‘ ์ž‘์—…์„ ๋ถ„๋ฆฌ. ๋‹จ์ผ ์ธ์ฝ”๋”๋กœ ์ธํ•œ ํ‘œํ˜„ ๊ณต๊ฐ„ ์ถฉ๋Œ์„ ์ œ๊ฑฐํ•ด ์ดํ•ด ์„ฑ๋Šฅ์„ ๋Œ€ํญ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค.์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜ ๊ตฌ์„ฑ์š”์†Œ
23-Stage ํ†ตํ•ฉ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ: (โ‘  Adaptor & ์ด๋ฏธ์ง€ ํ—ค๋“œ ์‚ฌ์ „ํ•™์Šต โ†’ โ‘ก LLM + ์–‘ ์ธ์ฝ”๋” ํ†ตํ•ฉ ์‚ฌ์ „ํ›ˆ๋ จ โ†’ โ‘ข Supervised Instruction Tuning)์œผ๋กœ ๋‹จ์ผ Cross-Entropy ์†์‹ค๋งŒ ์‚ฌ์šฉํ•ด ์ดํ•ดยท์ƒ์„ฑยทํ…์ŠคํŠธ ์„ธ ํƒœ์Šคํฌ๋ฅผ ๋™์‹œ์— ์ˆ˜๋ ด์‹œํ‚ด. ๋ณ„๋„ ์†์‹ค ๊ฐ€์ค‘์น˜ ์—†์ด๋„ 180 K ์Šคํ… ๋งŒ์— ์ตœ์ข… ์„ฑ๋Šฅ ๋‹ฌ์„ฑ.์ƒˆ๋กœ์šด ํ•™์Šต ๊ธฐ๋ฒ•
3ํ‘œํ˜„ ์ถฉ๋Œ ํ•ด์†Œ์— ๋Œ€ํ•œ ์ด๋ก ยท์‹ค์ฆ ํ†ต์ฐฐ & ํ”Œ๋Ÿฌ๊ทธ์ธ ํ™•์žฅ์„ฑ: ๊ณ ์ฐจ์›่ฏญ์˜่ฏญ์  ํ‘œํ˜„(์ดํ•ด)๊ณผ ์ €์ฐจ์› ๊ณต๊ฐ„์  ์„ธ๋ถ€(์ƒ์„ฑ)๊ฐ€ ํ•œ ์ธ์ฝ”๋”์—์„œ ์ถฉ๋Œํ•œ๋‹ค๋Š” ๋ฌธ์ œ๋ฅผ ๊ทœ๋ช…ํ•˜๊ณ , ๋””์ปคํ”Œ๋ง์ด ์ด๋ฅผ ํ•ด์†Œํ•จ์„ ablation์œผ๋กœ ์ฆ๋ช…(MME +41 %, GQA +30 %). ๋˜ํ•œ ์ธ์ฝ”๋”๋ฅผ ๊ต์ฒดํ•ด EVA-CLIP, MoVQGan, 3D Point-Cloud ๋“ฑ ๋ชจ๋‹ฌ ์ถ”๊ฐ€ยท๊ต์ฒด๊ฐ€ ์šฉ์ดํ•จ์„ ์„ค๊ณ„ ์ฐจ์›์—์„œ ์ œ์‹œ.์ƒˆ๋กœ์šด ์ด๋ก ์  ํ†ต์ฐฐ

์š”์ปจ๋Œ€ Janus๋Š” โ€œํ•˜๋‚˜์˜ Transformer, ๋‘ ๊ฐœ์˜ ์‹œ์„ โ€์ด๋ผ๋Š” ์„ค๊ณ„๋กœ ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅยท์œ ์—ฐ์„ฑ ๋‘ ๋งˆ๋ฆฌ ํ† ๋ผ๋ฅผ ์žก์œผ๋ฉฐ, ํ›„์† ์—ฐ๊ตฌ๊ฐ€ ๋ชจ๋‹ฌ๋ณ„ ์ตœ์  ์ธ์ฝ”๋”๋ฅผ ํ”Œ๋Ÿฌ๊ทธ์ธ์ฒ˜๋Ÿผ ํƒ‘์žฌํ•˜๋„๋ก ๊ธธ์„ ์—ด์—ˆ๋‹ค.

ํ”„๋กฌํ”„ํŠธ 1.2.2 (์ €์ž ๊ด€์ ์—์„œ์˜ ๊ฐ•์ )

PLAINTEXT
"์ €์ž๋“ค์˜ ๊ด€์ ์—์„œ, ์ž์‹ ๋“ค์˜ ์ ‘๊ทผ๋ฒ•์ด ์ด์ „ ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ์šฐ์›”ํ•œ ์ด์œ ๋Š” ๋ฌด์—‡์ธ๊ฐ€? ๊ทธ๋“ค์ด ์ž์‹ ๋“ค์˜ ์—ฐ๊ตฌ๊ฐ€ ์ง€๋‹Œ ๋…์ฐฝ์„ฑ๊ณผ ๊ฐ•์ ์„ ๋’ท๋ฐ›์นจํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๋Š” ํ•ต์‹ฌ ๋…ผ๊ฑฐ๋ฅผ ์ธ์šฉํ•˜๊ฑฐ๋‚˜ ์•Œ๊ธฐ ์‰ฝ๊ฒŒ ์„ค๋ช…ํ•ด ์ค˜."
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

๐Ÿš€ ํ•œ ์ค„ ์š”์•ฝ

์ €์ž๋“ค์€ โ€œ๋“€์–ผ ๋น„์ „ ์ธ์ฝ”๋” + ๋‹จ์ผ AR Transformerโ€ ์„ค๊ณ„๊ฐ€ โ‘  ํ‘œํ˜„ ์ถฉ๋Œ ์ œ๊ฑฐ, โ‘ก ์„ฑ๋Šฅ ์ƒ์Šน, โ‘ข ํŒŒ๋ผ๋ฏธํ„ฐยท์œ ์—ฐ์„ฑ ๋™์‹œ ํ™•๋ณด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ์ธก๋ฉด์—์„œ ๊ธฐ์กด ๋‹จ์ผ-์ธ์ฝ”๋”ยทํˆด-์ฝœ ๋ฐฉ์‹๋ณด๋‹ค ๋ช…ํ™•ํžˆ ์šฐ์›”ํ•˜๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค.


๐Ÿ”‘ ์ €์ž ๊ด€์ ์—์„œ์˜ ๊ฐ•์  ๋ฐ ๋…ผ๊ฑฐ

#๊ฐ•์ ์™œ ์šฐ์›”ํ•œ๊ฐ€? (์ €์ž ํ•ต์‹ฌ ๋…ผ๊ฑฐยท์‹ค์ฆ)๋ถ„๋ฅ˜
1ํ‘œํ˜„ ์ถฉ๋Œ ํ•ด์†Œโ€œJanus alleviates the conflict stemming from the different granular needs of multimodal understanding and generation and eliminates the need to make trade-offsโ€ โ†’ SigLIP (๊ณ ์ฐจ่ฏญ์˜่ฏญ)์™€ VQ (์ €์ฐจ์› ์„ธ๋ถ€) ๊ฒฝ๋กœ๋ฅผ ๋ถ„๋ฆฌํ•ด ํ•œ ์ธ์ฝ”๋”๊ฐ€ ๋‘ ๊ณผ์ œ ์š”๊ตฌ๋ฅผ ๋™์‹œ์— ๋งŒ์กฑํ•ด์•ผ ํ•˜๋Š” ๊ทผ๋ณธ ๋ชจ์ˆœ์„ ์ œ๊ฑฐ.์•„ํ‚คํ…์ฒ˜
2๋™์ผ ํŒŒ๋ผ๋ฏธํ„ฐ, ์••๋„์  ์„ฑ๋Šฅ1.3 B Janus๊ฐ€ ๊ฐ™์€ ํฌ๊ธฐ Show-o ๋Œ€๋น„ MME +41 %(949โ†’1338)ยทGQA +30 % ์„ฑ๋Šฅ ์ƒ์Šน , GenEval +8 ptยทCOCO-FID **โ€“8 %**๋กœ ์ƒ์„ฑ๋„ ์œ ์ง€/ํ–ฅ์ƒ . โ†’ ์ž‘์ง€๋งŒ ๊ฐ•ํ•œ ํ†ตํ•ฉ ๋ชจ๋ธ ๊ฐ€๋Šฅ.์‹คํ—˜ ๊ทผ๊ฑฐ
3์ง„์ •ํ•œ โ€œํ†ตํ•ฉโ€ ๋ชจ๋ธ๊ธฐ์กด Emu ๋“ฑ์€ โ€œexternal diffusion toolโ€๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋ฏ€๋กœ LLM ์ž์ฒด์—๋Š” ์ƒ์„ฑ ๋Šฅ๋ ฅ์ด ์—†๋‹ค๋Š” ํ•œ๊ณ„ ์ง€์  . Janus๋Š” LLM์ด ์ง์ ‘ ์ด๋ฏธ์ง€ ํ† ํฐ์„ ์˜ˆ์ธกํ•ด ํŒŒ์ดํ”„๋ผ์ธ ๋ณต์žก์„ฑ์„ ์ œ๊ฑฐํ•˜๊ณ  ์ถ”๋ก  ์ง€์—ฐ ๊ฐ์†Œ.์•„ํ‚คํ…์ฒ˜ / ์‹œ์Šคํ…œ
4ํ”Œ๋Ÿฌ๊ทธ์ธ-๊ธ‰ ํ™•์žฅ์„ฑโ€œJanus is flexible and extensible. After decoupling, both tasks can adopt state-of-the-art encodingโ€ โ†’ EVA-CLIPยทMoVQGanยท3D Point-Cloud ๋“ฑ ์ธ์ฝ”๋” ๊ต์ฒดยท๋ชจ๋‹ฌ ์ถ”๊ฐ€๊ฐ€ ์†์‰ฝ๋‹ค.์œ ์—ฐ์„ฑ
5๊ฐ„๋‹จํ•œ 3-Stage ๋‹จ์ผ ์†์‹ค ํ•™์Šต๋ณ„๋„ ์†์‹ค ๊ฐ€์ค‘์น˜ ์—†์ด Cross-Entropy ํ•˜๋‚˜๋กœ 180 K step ๋งŒ์— ์ˆ˜๋ ดํ•˜๋Š” 3-Stage ํŒŒ์ดํ”„๋ผ์ธ ์ œ์‹œ . โ†’ ๊ตฌํ˜„ยท์žฌํ˜„์ด ์šฉ์ด.ํ•™์Šต ๊ธฐ๋ฒ•

โœจ ์ •๋ฆฌ

์ €์ž๋“ค์€ *โ€œ๋‘ ์–ผ๊ตด์˜ ์‹  Janus์ฒ˜๋Ÿผ, ์„œ๋กœ ์ถฉ๋Œํ•˜๋˜ ์ดํ•ดยท์ƒ์„ฑ ์š”๊ตฌ๋ฅผ ๋‘ ๊ฐœ์˜ ํŠนํ™” ์ธ์ฝ”๋”๋กœ ๊ฐˆ๋ผ๋†“์Œ์œผ๋กœ์จ ์ž‘์€ ๋ชจ๋ธ์—๋„ SOTA๊ธ‰ ์–‘๋ฉด ๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ–ˆ๋‹คโ€*๊ณ  ๊ฐ•์กฐํ•œ๋‹ค. ์„ฑ๋Šฅ ๋ฐ์ดํ„ฐ์™€ ์•„ํ‚คํ…์ฒ˜ ๋‹จ์ˆœ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋‹ฌ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ๊ทผ๊ฑฐ๋กœ ํ˜„์กด ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ๋Œ€๋น„ ๋ช…ํ™•ํ•œ ์šฐ์œ„๋ฅผ ์ œ์‹œํ•œ๋‹ค.

ํ”„๋กฌํ”„ํŠธ 1.3.1 (์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋‹จ๊ณ„๋ณ„ ์„ค๋ช…)

PLAINTEXT
"ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜, ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜, ๋˜๋Š” ์ฃผ์š” ๋ฐฉ๋ฒ•๋ก ์„ ๋‹จ๊ณ„๋ณ„(step-by-step)๋กœ ์„ค๋ช…ํ•ด ์ค˜. ๋…์ž๋Š” AI ๋ถ„์•ผ์˜ ๋Œ€ํ•™์›์ƒ ์ˆ˜์ค€์ด๋ผ๊ณ  ๊ฐ€์ •ํ•ด. ํŠนํžˆ, ๊ฐ„๋‹จํ•œ ๋ฌธ์žฅ, 3x3 ํ”ฝ์…€ ์ด๋ฏธ์ง€, ์ž‘์€ ์ƒํƒœ ๊ณต๊ฐ„(state space) ๋“ฑ ์•„์ฃผ ๊ฐ„๋‹จํ•˜๊ณ  ๊ตฌ์ฒด์ ์ธ ์˜ˆ์‹œ(toy example)์™€ ์ƒ˜ํ”Œ ์ž…๋ ฅ์„ ๋งŒ๋“ค์–ด์„œ, ์ด ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด ๊ฐ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์น˜๋ฉฐ ์ž…๋ ฅ์ด ์ตœ์ข… ์ถœ๋ ฅ์œผ๋กœ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™˜๋˜๋Š”์ง€ ์ „์ฒด ๊ณผ์ •์„ ๋ณด์—ฌ์ค˜. ๋“ฑ์žฅํ•˜๋Š” ๋ชจ๋“  ํ•ต์‹ฌ ์šฉ์–ด์™€ ๋ณ€์ˆ˜๋Š” ๊ทธ ์ฆ‰์‹œ ์ •์˜ํ•ด ์ค˜."
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

๐Ÿ—๏ธ TL;DR โ€” ํ•œ๋ˆˆ์— ๋ณด๋Š” Janus ์ถ”๋ก ยทํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ

Janus๋Š” **โ‘  ๋“€์–ผ ๋น„์ „ ์ธ์ฝ”๋”(SigLIP โ†” VQ) + โ‘ก ๋‹จ์ผ AR Transformer + โ‘ข 3-Stage ํ•™์Šต(Cross-Entropy only)**๋ผ๋Š” ์„ธ ์š”์†Œ๋กœ ์ž‘๋™ํ•œ๋‹ค. ์ดํ•ด ๊ฒฝ๋กœ( SigLIP โ†’ Adaptor โ†’ LLM โ†’ ํ…์ŠคํŠธ)์™€ ์ƒ์„ฑ ๊ฒฝ๋กœ(ํ…์ŠคํŠธ โ†’ LLM โ†’ VQ ID โ†’ Image Decoder)๋ฅผ ์™„์ „ ๋ถ„๋ฆฌํ•ด MME +41 % / COCO-FID 8.53์„ 1.3 B ๋ชจ๋ธ์—์„œ ๋‹ฌ์„ฑํ•œ๋‹ค.


1. ํ•ต์‹ฌ ์šฉ์–ด & ๊ธฐํ˜ธ

๊ธฐํ˜ธ์ •์˜ํฌ๊ธฐ(์˜ˆ์‹œ)
ฮฃu(ยท)SigLIP Encoder (์ดํ•ด์šฉ)384ร—384 img โ†’ Nu ร— 1024
ฮฃg(ยท)VQ Tokenizer (์ƒ์„ฑ์šฉ)384ร—384 img โ†” Ng (=24ยฒ) ID
Au, Ag2-์ธต MLP Adaptor1024โ†’4096, 512โ†’4096
LDeepSeek-LLM 1.3 B, AR Transformer4096-dim
Htxt, Himg์˜ˆ์ธก Headํ…์ŠคํŠธ ํ† ํฐ / VQ ID
CFGClassifier-Free Guidance scale๊ธฐ๋ณธ 5

2. ์ถ”๋ก  ๋‹จ๊ณ„๋ณ„ ํ”Œ๋กœ์šฐ

2-A. ๐ŸŽฏ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ์˜ˆ์‹œ

์งˆ๋ฌธ: โ€œ๐Ÿ–ผ๏ธ ์•ˆ์˜ ์ˆซ์ž๋Š” ๋ช‡์ธ๊ฐ€?โ€ ์ž…๋ ฅ ์ด๋ฏธ์ง€ Iu (3 ร— 3 ํ”ฝ์…€ toy)

PLAINTEXT
1 1 1
0 0 1
0 0 1
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ
๋‹จ๊ณ„์—ฐ์‚ฐtoy-๊ฐ’
โ‘  SigLIP ์ธ์ฝ”๋”ฉZu=ฮฃu(Iu)4 patch ร— 1024-d
(๊ฐ„๋‹จํžˆ [zโ‚โ€ฆzโ‚„])
โ‘ก Adaptor ๋งคํ•‘แบ=Au(Zu)4 ร— 4096
โ‘ข ํ† ํฐ ๊ฒฐํ•ฉS = [CLS] โ€œQ:โ€ โ€ฆ แบ๊ธธ์ด m
โ‘ฃ LLM ์˜ˆ์ธกY = L(S)โ€œ์ˆซ์ž 1์ž…๋‹ˆ๋‹ค.โ€
โ‘ค Htxtsoftmaxโ†’ํ† ํฐ๋‹ต๋ณ€ ์™„์„ฑ

๊ด€์ฐฐ: SigLIP ๊ณ ์ฐจ่ฏญ์˜่ฏญ ํ‘œํ˜„์ด ์†์‹ค ์—†์ด L์— ํˆฌ์ž…๋˜์–ด ๋ณต์žก ์ถ”๋ก ์„ ์ง€์›ํ•œ๋‹ค.


2-B. ๐Ÿ–Œ๏ธ ์ƒ์„ฑ ์˜ˆ์‹œ

ํ”„๋กฌํ”„ํŠธ: โ€œDraw a red heart.โ€

๋‹จ๊ณ„์—ฐ์‚ฐtoy-๊ฐ’
โ‘  ํ…์ŠคํŠธ ํ† ํฐํ™”P = [CLS] โ€œDrawโ€ โ€œaโ€ โ€œredโ€ โ€œheartโ€5 tokens
โ‘ก LLM ๋””์ฝ”๋”ฉL auto-regress โ†’ ID seq c = [12, 45, โ€ฆ]Ng=9 (3ร—3)
โ‘ข ID ํˆฌ์˜รช=Agโ€“1(c)9 codes
โ‘ฃ ์ด๋ฏธ์ง€ ๋””์ฝ”๋”ลถ = ฮฃgโ€“1(c)3ร—3 RGB heart
โ‘ค CFGlogit_{final} = l_u+5(l_cโ€“l_u)ํ’ˆ์งˆ โ†‘

๊ฒฐ๊ณผ: 3ร—3 toy ์ด๋ฏธ์ง€

PLAINTEXT
R R R
R 0 R
R R R
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

3. ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ (3-Stage)

StageํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ๋ชฉ์ (๋ฐ์ดํ„ฐ ๋น„์ค‘)์˜ˆ์‹œ ์Šคํ…
โ…  Adaptor + HimgL, ฮฃu, ฮฃg ๋™๊ฒฐ๊ฐœ๋… ์—ฐ๊ฒฐ (1 : 0 : 1)10 K
โ…ก ์ „ ๋ชจ๋ธ ํ•ด์ œํ†ตํ•ฉ pretrain ํ…์ŠคํŠธ+์ด๋ฏธ์ง€+T2I (2 : 3 : 5)180 K
โ…ข Gen Encoder ์ œ์™ธ ์ „๋ถ€Instruction tuning (7 : 3 : 10)24 K

๋ชจ๋“  ๋‹จ๊ณ„ Cross-Entropy ํ•˜๋‚˜๋กœ ํ•™์Šต โ†’ ๊ฐ€์ค‘์น˜ ์กฐ์ • ๋ถˆํ•„์š”, ์ „์ฒด 214 K ์Šคํ….


4. ํ•œ๋ˆˆ์— ์ •๋ฆฌ โ€” ์ž…๋ ฅโ†’์ถœ๋ ฅ ๋ณ€ํ™˜ ๊ณผ์ •

  graph LR
A[Image I_u] -- ฮฃ_u --> B[High-D Z_u]
B -- A_u --> C[4096-d Emb]
P[Text Prompt] --> D
C & D -- concat --> E[Seq S]
E -- L --> F[Text Logits]
F -- H_txt --> G[Answer]

P2[Text Prompt] --> D2
D2 -- L --> H[VQ IDs]
H -- ฮฃ_g^-1 --> I[Image]

ํ•ต์‹ฌ: ๋‘ ์ธ์ฝ”๋”๊ฐ€ ๋™์‹œ์— LLM์˜ ์ž…๋ ฅ ์—ญํ• ์„ ํ•˜๋˜, ํ‘œํ˜„ ๊ณต๊ฐ„์ด ์ถฉ๋Œํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ์ ์ด Janus์˜ ์„ค๊ณ„ ํ•ต์‹ฌ์ด๋‹ค.


โœจ ์‹ค๋ฌด ํŒ (๋ธ”๋กœ๊ทธ์šฉ ๋งˆ๋ฌด๋ฆฌ)

  • SigLIP โ†” VQ ๊ต์ฒด: EVA-CLIP, MoVQGan ๋“ฑ์œผ๋กœ ๊ต์ฒด ์‹œ ์ฆ‰์‹œ ์„ฑ๋Šฅยทํ•ด์ƒ๋„ ํ™•์žฅ.
  • ๋ชจ๋‹ฌ ํ”Œ๋Ÿฌ๊ทธ์ธ: 3D Point-Cloud, EEG ๋“ฑ ์ถ”๊ฐ€ ์ธ์ฝ”๋”๋ฅผ ๊ทธ๋Œ€๋กœ Aโ‹†์— ์—ฐ๊ฒฐํ•˜๋ฉด ๋.
  • ๋ฉ”๋ชจ๋ฆฌ ์ตœ์ ํ™”: 1.3 B๋ผ์„œ A100 40 GB ํ•œ ์žฅ์œผ๋กœ๋„ ์ถ”๋ก  2 fps ๋‹ฌ์„ฑ(์ €์ž ๋ณด๊ณ ).

์ด์ฒ˜๋Ÿผ Janus๋Š” โ€œํ•œ ์–ผ๊ตด๋กœ ์ดํ•ด, ๋‹ค๋ฅธ ์–ผ๊ตด๋กœ ์ƒ์„ฑโ€ํ•˜๋Š” ๋‘ ์–ผ๊ตด์˜ ์‹ (Janus) ๋ฉ”ํƒ€ํฌ๋ฅผ ์‹ค์งˆ์  ์„ฑ๋Šฅ ์ด๋“์œผ๋กœ ๊ตฌํ˜„ํ•œ ์ฒซ ํ†ตํ•ฉ MLLM์ด๋‹ค.

ํ”„๋กฌํ”„ํŠธ 1.3.2 (‘๋น„๋ฐ€ ๋ณ‘๊ธฐ’ ์‹๋ณ„)

PLAINTEXT
"์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๊ฐ€์žฅ ๊ฒฐ์ •์ ์ธ ๋‹จ์ผ ์ˆ˜ํ•™ ๊ณต์‹, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋‹จ๊ณ„, ๋˜๋Š” ์•„ํ‚คํ…์ฒ˜ ๊ตฌ์„ฑ์š”์†Œ๋ฅผ ์‹๋ณ„ํ•ด ์ค˜. ๊ทธ๊ฒƒ์˜ ๊ธฐ๋Šฅ๊ณผ, ๊ทธ๊ฒƒ์ด ์ด ๋ฐฉ๋ฒ•๋ก ์˜ ์„ฑ๊ณต์— ์™œ ํ•„์ˆ˜์ ์ธ์ง€ ์„ค๋ช…ํ•ด ์ค˜."
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

๐Ÿš€ โ€˜๋น„๋ฐ€ ๋ณ‘๊ธฐโ€™ ํ•œ ์ค„ ์ •์˜

๋“€์–ผ ๋น„์ „ ์ธ์ฝ”๋” ๋””์ปคํ”Œ๋งโ€”๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด์—๋Š” SigLIP ์ธ์ฝ”๋”, ์ด๋ฏธ์ง€ ์ƒ์„ฑ์—๋Š” VQ Tokenizer๋ฅผ ๊ฐ๊ฐ ์—ฐ๊ฒฐํ•˜๊ณ  ๋‘ ๊ฒฝ๋กœ์˜ ์ถœ๋ ฅ์„ ํ•˜๋‚˜์˜ AR Transformer ์•ž์—์„œ ๋‹จ์ˆœ ์‹œํ€€์Šค ๋ณ‘ํ•ฉ
S = [ E_txt ; A_u(ฮฃ_u(I)) ; A_g(E_VQ(I)) ] ๋กœ ํ†ตํ•ฉํ•œ๋‹ค๋Š” ๋‹จ - ํ•˜๋‚˜์˜ ์„ค๊ณ„๊ฐ€ Janus์˜ ์„ฑ๋Šฅ ๋„์•ฝ์„ ๋งŒ๋“  ๊ฒฐ์ •์  ์š”์†Œ๋‹ค.


1๏ธโƒฃ ๋ฌด์—‡์„ ํ•˜๋Š”๊ฐ€? โ€” ๊ธฐ๋Šฅ

๊ฒฝ๋กœํ•ต์‹ฌ ์—ฐ์‚ฐ์ƒ์„ฑ๋˜๋Š” ํ‘œํ˜„์—ญํ• 
์ดํ•ดF_u = A_u(ฮฃ_u(I))๊ณ ์ฐจ์› semanticโ€†feature (4096 d)๊ฐ์ฒดยท๊ด€๊ณ„ยท๋ฌธ๋งฅ ํŒŒ์•…
์ƒ์„ฑc = ฮฃ_g(I) โ†’ F_g = A_g(E(c))์ €์ฐจ์› VQ code embed (4096 d)ํ”ฝ์…€ยทํ…์Šค์ฒ˜ ๋ณต์›
ํ†ตํ•ฉS = [ E_txt ; F_u ; F_g ]๋‹จ์ผ ํ† ํฐ ์‹œํ€€์ŠคAR Transformer ์ž…๋ ฅ
  • ฮฃ_u : SigLIP Encoder, ฮฃ_g : VQ Tokenizer, A_* : 2-์ธต MLP Adaptor, E_txt : ํ…์ŠคํŠธ ํ† ํฐ ์ž„๋ฒ ๋”ฉ.
  • ์ดํ•ดยท์ƒ์„ฑ ๊ฐ๊ฐ ์ตœ์  ํ‘œํ˜„ ๊ณต๊ฐ„์„ ํ™•๋ณดํ•œ ๋’ค Transformer ๋‚ด๋ถ€์—์„œ๋งŒ ์ƒํ˜ธ์ž‘์šฉ์‹œ์ผœ ํ‘œํ˜„ ์ถฉ๋Œ์„ ์›์ฒœ ์ฐจ๋‹จํ•œ๋‹ค.

2๏ธโƒฃ ์™œ ํ•„์ˆ˜์ ์ธ๊ฐ€? โ€” ์„ฑ๊ณต์˜ ์—ด์‡ 

์ฆ๊ฑฐ๋‹จ์ผ ์ธ์ฝ”๋” (Exp-A)Janus (Exp-D)๊ฐœ์„  ํญ
MME (์ดํ•ด)35.069.4+98 %
GQA24.730.5+23 %
COCO-FID (์ƒ์„ฑ)8.728.53โ†“ 2 %
  • ๊ฐ™์€ 1.3 B ํŒŒ๋ผ๋ฏธํ„ฐ, ๋™์ผ ํ•™์Šต ์Šคํ…์—์„œ ์ดํ•ด ์„ฑ๋Šฅ์€ ๋‘ ๋ฐฐ, ์ƒ์„ฑ ํ’ˆ์งˆ์€ ์œ ์ง€/๊ฐœ์„ โ€”ํ‘œํ˜„ ๋ถ„๋ฆฌ๋งŒ์œผ๋กœ ์–ป์€ ์ˆœ์ˆ˜ ์ด๋“.
  • Ablation (B โ†’ C) ๋„ **โ€œ๋ถ„๋ฆฌ + ์ดํ•ด ์ „์šฉ ํ•™์Šตโ€**์ด ์ดํ•ด ์ง€ํ‘œ๋ฅผ ์ถ”๊ฐ€๋กœ 18 pt ์˜ฌ๋ ค, ์ถฉ๋Œ ๊ฐ€์„ค์„ ์‹คํ—˜์ ์œผ๋กœ ์ž…์ฆ.

3๏ธโƒฃ ํ•ต์‹ฌ์ด ๋˜๋Š” ์ˆ˜์‹/๋ธ”๋ก

TEXT
# ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ ์‹œํ€€์Šค ์ƒ์„ฑ
F_u = A_u( ฮฃ_u(I) )          # ์ดํ•ด์šฉ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ
c   = ฮฃ_g(I)                 # VQ code IDs
F_g = A_g( E(c) )            # ์ƒ์„ฑ์šฉ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ
S   = concat( E_txt , F_u , F_g )
Y   = LLM(S)                 # ๋‹จ์ผ AR Transformer
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

์ด ํ•œ ์ค„์˜ concat ๋•๋ถ„์—

  • ์„œ๋กœ ๋‹ค๋ฅธ ํ•ด์ƒ๋„ยทgranularity ์š”๊ตฌ๋ฅผ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๋ถ„๋ฆฌํ•˜๊ณ ,
  • ๋ณ„๋„ ์†์‹คยท๊ฐ€์ค‘์น˜ ์—†์ด Cross-Entropy ํ•˜๋‚˜๋กœ ์ดํ•ดยท์ƒ์„ฑยทํ…์ŠคํŠธ๋ฅผ ๋™์‹œ์— ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.

โœจ ์ •๋ฆฌ

๋‹จ์ผ ์ˆ˜์‹ S = [ E_txt; A_u(ฮฃ_u(I)); A_g(E_VQ(I)) ]๊ฐ€ Janus์˜ ๋‘ ์–ผ๊ตดโ€”์ดํ•ด์™€ ์ƒ์„ฑโ€”์„ ์œตํ•ฉํ•˜๋Š” ์—ด์‡ ๋‹ค. ์ด ๋””์ปคํ”Œ๋ง+๋ณ‘ํ•ฉ ๊ตฌ์กฐ๊ฐ€ ์—†์—ˆ๋‹ค๋ฉด, ์ž‘์€ 1.3 B ๋ชจ๋ธ์ด MME +41 %, FID 8.53 ์ˆ˜์ค€์˜ ์–‘๋ฉด SOTA๋ฅผ ์ฐ๋Š” ์ผ์€ ๋ถˆ๊ฐ€๋Šฅํ–ˆ๋‹ค.

ํ”„๋กฌํ”„ํŠธ 1.4.1 (ํ•ต์‹ฌ ๊ฒฐ๊ณผ ๋ถ„์„)

PLAINTEXT
"'Experiments' ๋˜๋Š” 'Results' ์„น์…˜์˜ ํ‘œ์™€ ๊ทธ๋ฆผ์„ ํฌํ•จํ•œ ์ฃผ์š” ๊ฒฐ๊ณผ๋ฅผ ๋ถ„์„ํ•ด ์ค˜. ์‚ฌ์šฉ๋œ ํ•ต์‹ฌ ์„ฑ๋Šฅ ์ง€ํ‘œ(performance metrics)๋Š” ๋ฌด์—‡์ธ๊ฐ€? ์–ด๋–ค ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ฒฐ๊ณผ๊ฐ€ ๋ณด๊ณ ๋˜์—ˆ๋Š”๊ฐ€? ์ €์ž๋“ค์ด ์ž์‹ ๋“ค์˜ ๋ฐฉ๋ฒ•๋ก ์˜ ์„ฑ๊ณต ์ฆ๊ฑฐ๋กœ ๊ฐ€์žฅ ๊ฐ•์กฐํ•˜๋Š” ์ฃผ์š” ๊ฒฐ๊ณผ๋ฅผ ์š”์•ฝํ•ด ์ค˜."
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

๐Ÿš€ ํ•œ๋ˆˆ์— ํ•ต์‹ฌ ๊ฒฐ๋ก  - Janus 1.3 B๊ฐ€ ์ž…์ฆํ•œ ๊ฒƒ

  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ดโ€Š: ๊ธฐ์กด ์ตœ๊ณ  ํ†ตํ•ฉ ๋ชจ๋ธ Show-o 1.3 B๋ณด๋‹ค MME +41 %(949 โ†’ 1338), GQA +30 %(48.7 โ†’ 59.1) ํ–ฅ์ƒ
  • ํ…์ŠคํŠธ-to-์ด๋ฏธ์ง€ ์ƒ์„ฑโ€Š: GenEval 61 % โ†’ SOTA ํ†ตํ•ฉ ์ตœ๊ณ (๊ธฐ์กด 53 %), **COCO-30K FID 8.53(โ†“8 %)**๋กœ ํ™”์งˆ๋„ ๊ฐœ์„ 
  • ํ•ต์‹ฌ ๊ทผ๊ฑฐโ€Š: ๋“€์–ผ ์ธ์ฝ”๋” ๋ถ„๋ฆฌ(์ดํ•ด-SigLIP, ์ƒ์„ฑ-VQ) ํ•œ ๊ฐ€์ง€ ์„ค๊ณ„๋งŒ ๋ฐ”๊ฟจ์„ ๋ฟ, ๋™์ผ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ์ดํ•ดยท์ƒ์„ฑ ๋ชจ๋‘ ์ƒํ–ฅ๋œ **โ€œํŠธ๋ ˆ์ด๋“œ-์˜คํ”„ ์ œ๊ฑฐโ€**๊ฐ€ ์‹คํ—˜์œผ๋กœ ํ™•์ธ.

1. ์‹คํ—˜์ด ์‚ฌ์šฉํ•œ ์ฃผ์š” ์ง€ํ‘œ & ๋ฒค์น˜๋งˆํฌ

์˜์—ญ์ง€ํ‘œํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹
์ดํ•ดMME ์Šค์ฝ”์–ด, GQA ์ •ํ™•๋„, POPEยทMMBenchยทSEED BenchยทMM-VetยทMMMU ๋“ฑ task๋ณ„ accuracy๊ณต๊ฐœ ๋ฒค์น˜๋งˆํฌ(์ด๋ฏธ์ง€+์งˆ๋ฌธ)
์ƒ์„ฑGenEval ์ข…ํ•ฉ ์ •ํ™•๋„(ํ”„๋กฌํ”„ํŠธ-์ค€์ˆ˜), FID (Frรฉchet Inception Distance)GenEval-Instr, MS-COCO-30K, MJHQ-30K

MME๋Š” 8๊ฐœ ํ•˜์œ„ ๊ณผ์ œ ํ‰๊ท  ์ ์ˆ˜(๋†’์„์ˆ˜๋ก ์ข‹์Œ), FID๋Š” ๋‚ฎ์„์ˆ˜๋ก ์ด๋ฏธ์ง€ ํ’ˆ์งˆ์ด ์šฐ์ˆ˜ํ•จ.


2. Janus vs. ๋Œ€ํ‘œ Baseline ์š”์•ฝ ํ…Œ์ด๋ธ”

๋ชจ๋ธ (ํŒŒ๋ผ๋ฏธํ„ฐ)MME โ†‘GQA โ†‘GenEval โ†‘COCO-30K FID โ†“MJHQ-30K FID โ†“
Show-o (1.3 B)94948.753 %9.2415.18
Janus (1.3 B)133859.161 %8.5310.10

์ˆซ์ž ์ถœ์ฒ˜: MMEยทGQAยทGenEval ์„ค๋ช… , FID ๊ฐ’ .


3. ์ €์ž๊ฐ€ ๊ฐ•์กฐํ•œ ์„ฑ๊ณต ์ฆ๊ฑฐ

  1. ๋™์ผ ํฌ๊ธฐ, ์„ฑ๋Šฅ ๊ธ‰๋“ฑ

    • 1.3 B ํŒŒ๋ผ๋ฏธํ„ฐ ์œ ์ง€ํ•˜๋ฉด์„œ Show-o ๋Œ€๋น„ ์ดํ•ด ์ง€ํ‘œ +41 % / +30 % ๊ฐœ์„ โ€Šโ€”โ€Š์ธ์ฝ”๋” ๋ถ„๋ฆฌ๋งŒ์œผ๋กœ ์–ป์€ ์ˆœ์ˆ˜ ์ด๋“.
  2. ์ƒ์„ฑ ํ’ˆ์งˆ๋„ ํฌ์ƒ ์—†์Œ

    • FID 8.53๋กœ ํ™”์งˆ๊นŒ์ง€ ๊ฐœ์„ , GenEval 61 %๋กœ SDXL(55 %)ยทDALL-E 2(52 %) ๋“ฑ ์ƒ์„ฑ ์ „์šฉ ๋ชจ๋ธ ์ผ๋ถ€๋„ ์ถ”์›”.
  3. Ablation์œผ๋กœ โ€˜์ถฉ๋Œ ๊ฐ€์„คโ€™ ๊ฒ€์ฆ

    • VQ ๋‹จ์ผ ์ธ์ฝ”๋”(Exp-A) โ†’ SigLIP+VQ ๋ถ„๋ฆฌ(Exp-D) ์ „ํ™˜ ์‹œ POPE 60 โ†’ 87, COCO-FID 8.72 โ†’ 8.53 ๋“ฑ ์ดํ•ดยท์ƒ์„ฑ ๋ชจ๋‘ ๋™์‹œ ํ–ฅ์ƒ.
  4. Figure 1 ์‹œ๊ฐ ์ฆ๊ฑฐ

    • MMEยทGenEval ์ขŒํ‘œ๊ณ„์—์„œ Janus๊ฐ€ MobileVLM(1.4 B)ยทInstructBLIP(7 B)ยทShow-o ๋Œ€๋น„ ์šฐ์ƒํ–ฅ ๋…์ฃผ ํŒจํ„ด์„ ๊ทธ๋ฆผ์œผ๋กœ ์ œ์‹œ.

4. ๊ฒฐ๊ณผ ํ•ด์„ & ์˜์˜

  • ํ‘œํ˜„ ์ถฉ๋Œ ํ•ด์†Œ โ†’ ํŠธ๋ ˆ์ด๋“œ-์˜คํ”„ ๋ถ•๊ดด: ํ•œ ์ธ์ฝ”๋”์— ๊ณ ์ฐจ่ฏญ์˜่ฏญยท์ €์ฐจ์› ์„ธ๋ถ€๋ฅผ ๊ฐ•์ œํ•˜๋˜ ๊ธฐ์กด ๊ตฌ์กฐ์  ๋ชจ์ˆœ์„ ์—†์• ์ž, ์ดํ•ดยท์ƒ์„ฑ ๋‘ ์ถ•์ด ๋™์‹œ์— ์˜ฌ๋ผ๊ฐ.
  • ํŒŒ๋ผ๋ฏธํ„ฐ ํšจ์œจ์„ฑ: 7 B ์ดํ•ด ์ „์šฉ(LLaVA-v1.5 ๋“ฑ)๊ณผ ์œ ์‚ฌํ•œ ์ดํ•ด ์„ฑ๋Šฅ์„ 1.3 B๋กœ ๋‹ฌ์„ฑ, ๋ชจ๋ฐ”์ผ/NPU ๋ฐฐ์น˜ ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ๋‹ค.
  • ๋ฒ”์šฉ์„ฑ ๊ฒ€์ฆ: GenEval-Instr ๊ฐ™์€ ๊ธธ๊ณ  ๋ณต์žกํ•œ ํ”„๋กฌํ”„ํŠธ๋„ ์ž˜ ๋”ฐ๋ฅด๋ฉด์„œ, COCO-FID๊นŒ์ง€ ๋‚ฎ์ถฐ ๊ท ํ˜• ์žกํžŒ SOTA๋ฅผ ์ œ์‹œ.

์š”์ปจ๋Œ€ Janus์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” โ€œํ•˜๋‚˜์˜ Transformer + ๋‘ ์ธ์ฝ”๋”โ€ ์„ค๊ณ„๊ฐ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ๋ณ‘๋ชฉ์„ ๊ทผ๋ณธ์ ์œผ๋กœ ์ œ๊ฑฐํ–ˆ์Œ์„ ์ˆ˜์น˜๋กœ ์ฆ๋ช…ํ•œ๋‹ค.

ํ”„๋กฌํ”„ํŠธ 1.4.2 (๋น„ํŒ์  ๋น„๊ต)

PLAINTEXT
"์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์€ ๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰๋œ ์ฃผ์š” ๋ฒ ์ด์Šค๋ผ์ธ ๋ฐ SOTA(State-of-the-Art) ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ์–ด๋–ค ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š”๊ฐ€? ์ €์ž๋“ค์˜ ์šฐ์›”์„ฑ ์ฃผ์žฅ์„ ๊ฐ€์žฅ ๊ฐ•๋ ฅํ•˜๊ฒŒ ๋’ท๋ฐ›์นจํ•˜๋Š” ํŠน์ • ๊ฒฐ๊ณผ๋‚˜ ๋น„๊ต ์ง€์ ์„ ์‹๋ณ„ํ•ด ์ค˜. ๋ฐ˜๋Œ€๋กœ, ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์ด ๊ฒฝ์Ÿ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜์ง€ ๋ชปํ–ˆ๊ฑฐ๋‚˜ ๊ฐœ์„  ํšจ๊ณผ๊ฐ€ ๋ฏธ๋ฏธํ–ˆ๋˜ ๊ฒฐ๊ณผ๋Š” ์—†๋Š”์ง€ ์ฐพ์•„๋ด. ๋งŒ์•ฝ ์žˆ๋‹ค๋ฉด, ์ €์ž๋“ค์€ ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ์— ๋Œ€ํ•ด ์–ด๋–ค ์ด์œ ๋ฅผ ์ œ์‹œํ•˜๋Š”๊ฐ€?"
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

๐Ÿ”‘ ๊ฒฐ๋ก  ๋จผ์ €

Janus 1.3 B๋Š” ๊ฐ™์€ ํฌ๊ธฐ์˜ ํ†ตํ•ฉ MLLM Show-o ๋Œ€๋น„

  • ์ดํ•ด โ†’ MME +41 %(949 โ†’ 1338), GQA +30 %(48.7 โ†’ 59.1)
  • ์ƒ์„ฑ โ†’ GenEval +8 pt (53 โ†’ 61), COCO-FID โ€“8 %(9.24 โ†’ 8.53) ์„ ๋‹ฌ์„ฑํ•ด โ€˜๋‹จ์ผ ์ธ์ฝ”๋”์˜ ํ‘œํ˜„ ์ถฉ๋Œโ€™ ๊ฐ€์„ค์„ ๊ฐ•๋ ฅํžˆ ์ž…์ฆํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ „์šฉ ์ƒ์„ฑ SOTA(PixArt-ฮฑ 7.32 / RAPHAEL 6.61 FID)๋‚˜ ์ดˆ๋Œ€ํ˜• ์ดํ•ด ๋ชจ๋ธ(LLaVA-v1.5 MMMU 35.4)๊นŒ์ง€๋Š” ์•„์ง ๋ฏธ์น˜์ง€ ๋ชปํ•˜๋ฉฐ, ์ €์ž๋“ค์€ ํ† ํฌ๋‚˜์ด์ € ์ข…๋ฅ˜ยทํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ ์ฐจ์ด๋ฅผ ์›์ธ์œผ๋กœ ๋“ ๋‹ค.

๐Ÿ“Š ํ•ต์‹ฌ ๋น„๊ต ํ…Œ์ด๋ธ”

๋ชจ๋ธ (ํŒŒ๋ผ๋ฏธํ„ฐ)๋ฒ”์ฃผMME โ†‘GQA โ†‘GenEval โ†‘COCO-FID โ†“MJHQ-FID โ†“
Show-o 1.3 Bํ†ตํ•ฉ94848.7539.2415.18
Janus 1.3 Bํ†ตํ•ฉ (์ œ์•ˆ)133859.1618.5310.10
LLaVA-v1.5 7 B์ดํ•ด ์ „์šฉ151062.0โ€“โ€“โ€“
PixArt-ฮฑ 0.6 B์ƒ์„ฑ ์ „์šฉโ€“โ€“487.32โ€“
RAPHAEL 3 B์ƒ์„ฑ ์ „์šฉโ€“โ€“โ€“6.61โ€“
VILA-U 7 B (384)ํ†ตํ•ฉ140260.8โ€“โ€“7.69

๊ตต์€ ๊ฐ’์€ ํ•ด๋‹น ์—ด ์ตœ๊ณ  ์„ฑ๋Šฅ. ์ถœ์ฒ˜: Table 2ยท3ยท4 in paper.


๐Ÿ† ์šฐ์›”์„ฑ์„ ๋’ท๋ฐ›์นจํ•˜๋Š” โ€˜ํ‚ฌ๋Ÿฌโ€™ ๋น„๊ต ์ง€์ 

  1. ๋™์ผ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋‘ ๋ฐฐ ๊ฐ€๊นŒ์šด ์ดํ•ด ์„ฑ๋Šฅ

    • MME 949 โ†’ 1338, GQA 48.7 โ†’ 59.1: *โ€œ์‹œํ€€์Šค ๋‹จ์ˆœ ๋ณ‘ํ•ฉ์œผ๋กœ ํ‘œํ˜„ ์ถฉ๋Œ์„ ํ•ด์†Œํ–ˆ๋‹คโ€*๋Š” ์ฃผ์žฅ์„ ์ˆ˜์น˜๋กœ ํ™•์ธ.
  2. ํ†ตํ•ฉ ๋ชจ๋ธ ์ค‘ ์ตœ๊ณ  ์ƒ์„ฑ ์ง€ํ‘œ

    • GenEval 61 %: Show-oยทSDXLยทDALL-E 2 ๋ชจ๋‘ ์ถ”์›”, instruction-following ๋Šฅ๋ ฅ ๊ฐ•์กฐ.
  3. Ablation์œผ๋กœ โ€˜๋“€์–ผ ์ธ์ฝ”๋”โ€™ ํšจ๊ณผ ์ง์ ‘ ๊ฒ€์ฆ

    • ๋‹จ์ผ VQ ์ธ์ฝ”๋”(Exp-A) ๋Œ€๋น„ POPE +27 pt, COCO-FID โ€“0.19; ์ดํ•ดยท์ƒ์„ฑ ๋ชจ๋‘ ๋™์‹œ ์ƒ์Šน.

๐Ÿ“Œ ํ•œ๊ณ„ ๋˜๋Š” ๋ฏธํกํ•œ ๋ถ€๋ถ„ & ์ €์ž ํ•ด์„

๊ด€์ฐฐ๋œ ์—ด์„ธ๊ตฌ์ฒด ์ˆ˜์น˜์ €์ž/๋…ผ๋ฌธ ํ•ด์„
**์ˆœ์ˆ˜ ํ™”์งˆ(FID)**๋Š” ์ตœ์ƒ SOTA๋ณด๋‹ค ๋†’์ŒRAPHAEL 6.61 < PixArt-ฮฑ 7.32 < Janus 8.53VQ ํ† ํฌ๋‚˜์ด์ € ํ•œ๊ณ„ยทํ•ด์ƒ๋„ 384ยฒ, โ€œ์ „์šฉ GANยทdiffusion์€ ํ™”์งˆ ์ตœ์ ํ™”๊ฐ€ ๋ชฉ์ โ€
MMMU ๊ณผ๋ชฉํ˜• ์ถ”๋ก ์—์„œ LLaVA-v1.5 ์•ž์„ฌ30.5 < 35.4๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐยท7 B ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ด์ . ํ–ฅํ›„ โ€œ๊ณ ํ•ด์ƒ๋„ ์ดํ•ด ์ธ์ฝ”๋”(EVA-CLIP)๋กœ ๋ณด์™„ ๊ฐ€๋Šฅโ€ ์–ธ๊ธ‰
**Semantic Tokenizer baseline (Exp-B)**๊ฐ€ ๋” ๋‚ฎ์€ FID7.11 < 8.53ํ† ํฌ๋‚˜์ด์ €๊ฐ€ โ€œ๋” ํฐ ํŒŒ๋ผ๋ฏธํ„ฐ+่ฏญ์˜่ฏญ IDโ€๋ผ ์ƒ์„ฑ์— ์œ ๋ฆฌ, ๊ทธ๋Ÿฌ๋‚˜ ์ดํ•ด ์„ฑ๋Šฅ ๊ธ‰๋ฝ(52.7 MMB)์œผ๋กœ trade-off ์กด์žฌ
MJHQ-FID์—์„œ VILA-U(384) 7 B ์šฐ์œ„7.69 < 10.10VILA-U๋Š” ํ•ด์ƒ๋„ 384ยฒ ๋™์ผํ•˜์ง€๋งŒ ์ธ์ฝ”๋”๊ฐ€ ํŒŒ๋ผ๋ฏธํ„ฐยท์‚ฌ์ „ํ•™์Šต ๋” ํผ, Janus๋Š” ์ดํ•ด๊นŒ์ง€ ๋™์‹œ ๋‹ฌ์„ฑ ๋ชฉํ‘œ์ž„์„ ๊ฐ•์กฐ

โœจ ์ •๋ฆฌ

Janus์˜ ๋“€์–ผ ๋น„์ „ ์ธ์ฝ”๋” + ๋‹จ์ผ Transformer ์„ค๊ณ„๋Š” ๊ฐ™์€ ํฌ๊ธฐ ํ†ตํ•ฉ ๋ชจ๋ธ ์•ˆ์—์„œ ์ดํ•ดยท์ƒ์„ฑ ๋‘ ์ถ•์„ ๋ชจ๋‘ ๋Œ์–ด์˜ฌ๋ฆฐ ์ฒซ ์‚ฌ๋ก€๋‹ค. ๊ฐ€์žฅ ๊ฐ•๋ ฅํ•œ ์ฆ๊ฑฐ๋Š” **MME +41 % & COCO-FID โ€“8 %**๋ผ๋Š” ํŠธ๋ ˆ์ด๋“œ-์˜คํ”„ ๋ถ•๊ดด์ด๋ฉฐ, ๋‚จ์€ ๊ณผ์ œ๋Š”

  1. ๊ณ ํ•ด์ƒ๋„ยท์ €FID ์ „์šฉ ํ† ํฌ๋‚˜์ด์ € ์ฑ„ํƒ,
  2. ๋Œ€๊ทœ๋ชจ ๊ณผ๋ชฉํ˜• ์ถ”๋ก  ๋ฐ์ดํ„ฐ,
  3. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ™•์žฅ(EVA-CLIP, MoVQGan) ๋“ฑ์œผ๋กœ SOTA ๊ฒฉ์ฐจ๋ฅผ ์ขํžˆ๋Š” ๊ฒƒ์ด๋‹ค.

ํ”„๋กฌํ”„ํŠธ 1.5.1 (์–ธ๊ธ‰๋œ ํ•œ๊ณ„์™€ ์ž ์žฌ์  ํ•œ๊ณ„)

PLAINTEXT
"์ €์ž๋“ค์ด ๋…ผ๋ฌธ์—์„œ ๋ช…์‹œ์ ์œผ๋กœ ์ธ์ •ํ•œ ํ•œ๊ณ„์ , ์•ฝ์ , ๋˜๋Š” ์‹คํŒจ ์‚ฌ๋ก€(failure modes)๋Š” ๋ฌด์—‡์ธ๊ฐ€? ๋‹ค์Œ์œผ๋กœ, ๋ฐฉ๋ฒ•๋ก ๊ณผ ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ๋‹น์‹ ์˜ ๋ถ„์„์„ ๋ฐ”ํƒ•์œผ๋กœ, ์ €์ž๋“ค์ด ์–ธ๊ธ‰ํ•˜์ง€ ์•Š์•˜์„ ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ์ ์ธ ํ•œ๊ณ„๋‚˜ ์•ฝ์ ์€ ๋ฌด์—‡์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋Š”๊ฐ€? (์˜ˆ: ๊ฐ•๋ ฅํ•œ ๊ฐ€์ •์— ๋Œ€ํ•œ ์˜์กด์„ฑ, ํ™•์žฅ์„ฑ ๋ฌธ์ œ, ๋†’์€ ์—ฐ์‚ฐ ๋น„์šฉ, ์ผ๋ฐ˜ํ™”์˜ ํ•œ๊ณ„, ์ž ์žฌ์ ์ธ ๋ถ€์ •์  ์‚ฌํšŒ ์˜ํ–ฅ ๋“ฑ)"
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

ํ•œ๋ˆˆ์— ๋ณด๋Š” ๊ฒฐ๋ก  ์ €์ž๋“ค์ด ๋ช…์‹œ์ ์œผ๋กœ ๋ฐํžŒ ์ œ์•ฝ์€ โ–ฒ ์ €ํ•ด์ƒ๋„(384ร—384) ์ด๋ฏธ์ง€๋กœ ํ•™์Šตยทํ‰๊ฐ€ โ–ฒ ์˜๋ฌธ ์œ„์ฃผ ํ…์ŠคํŠธ-ํˆฌ-์ด๋ฏธ์ง€(T2I) ๋ฐ์ดํ„ฐ์—๋งŒ ์˜์กด โ–ฒ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์†์‹ค์„ ๋™์ผ ๊ฐ€์ค‘์น˜๋กœ ๋‹จ์ˆœ ํ•ฉ์‚ฐ โ–ฒ ์‹œ๊ฐ ์ƒ์„ฑ/์ดํ•ด ์ธ์ฝ”๋”๋ฅผ ๋ถ„๋ฆฌํ–ˆ์ง€๋งŒ VQ-ํ† ํฌ๋‚˜์ด์ €(16ร— ๋‹ค์šด์ƒ˜ํ”Œ) ๊ธฐ๋ฐ˜์ด๋ผ ์„ธ์„ธํ•œ ๋””ํ…Œ์ผ์ด ์†์‹ค๋˜๊ธฐ ์‰ฝ๋‹ค๋Š” ์ ์ด๋‹ค. ์ถ”๊ฐ€๋กœ, ํ•„์ž๋Š” โ–ฒ 4096 ํ† ํฐ์˜ ์งง์€ ํ…์ŠคํŠธ ์ปจํ…์ŠคํŠธ โ–ฒ AR(autoregressive) ์ด๋ฏธ์ง€ ์ƒ์„ฑ์˜ ๋А๋ฆฐ ์ƒ˜ํ”Œ๋ง โ–ฒ 7 ์ผ ยท A100 128 GPU ๊ทœ๋ชจ์˜ ๋ง‰๋Œ€ํ•œ ํ•™์Šต ๋น„์šฉ โ–ฒ ๋„๋ฉ”์ธยท์–ธ์–ดยท์‚ฌํšŒ์  ํŽธํ–ฅ ๊ฒ€์ฆ ๋ถ€์กฑ ๋“ฑ์„ ์ž ์žฌ์  ํ•œ๊ณ„๋กœ ์ง€์ ํ•œ๋‹ค.


1. ์ €์ž๊ฐ€ ๋ช…์‹œํ•œ ํ•œ๊ณ„ยท์‹คํŒจ ๋ชจ๋“œ

#ํ•œ๊ณ„(์ €์ž ์ง์„ค)๊ทผ๊ฑฐ์ž ์žฌ ์˜ํ–ฅ
1ํ•ด์ƒ๋„ ์ œํ•œ โ€“ ๋ชจ๋“  ์ด๋ฏธ์ง€๋ฅผ 384 ร— 384๋กœ ๋ฆฌ์‚ฌ์ด์ฆˆ ํ›„ ํ•™์Šตยทํ‰๊ฐ€โ€œAll images are resized to 384 ร— 384 pixelsโ€๊ณ ํ•ด์ƒ๋„ ๋””ํ…Œ์ผ/ํ…์Šค์ฒ˜ ์†์‹ค, ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ’ˆ์งˆ ์ €ํ•˜
2VQ-Tokenizer ๋‹จ์  ์ธ์ง€ โ€“ ๋” ์„ธ๋ฐ€ํ•œ ์ธ์ฝ”๋”(MoVQGan), Diffusion Loss, AR + Parallel ํ˜ผํ•ฉ ๋“ฑ์„ โ€˜Possible Extensionsโ€™๋กœ ์ œ์‹œโ€œFiner-grained encodersโ€ฆ diffusion lossโ€ฆ AR and parallel methods can be usedโ€ํ˜„ ์‹œ์Šคํ…œ์€ ์„ธ๋ฐ€๋„ยทํผ์…‰์ถ”์–ผ ํ’ˆ์งˆ ํ•œ๊ณ„
3์˜๋ฌธ T2I ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉ โ€“ ๋‹ค๊ตญ์–ด T2I๋Š” โ€˜emergentโ€™๋กœ ๊ฐ„์ฃผโ€œwe only use English text-to-image data in trainingโ€๋น„์˜์–ด ํ”„๋กฌํ”„ํŠธ ์„ฑ๋Šฅยท์•ˆ์ •์„ฑ ๋ฏธ๊ฒ€์ฆ
4์†์‹ค ๊ฐ€์ค‘์น˜ ๋ฏธ์กฐ์ • โ€“ ๋ชจ๋“  ํƒœ์Šคํฌ์— ๋™์ผ CE Loss ์ ์šฉโ€œwe have not assigned different loss weights to different tasksโ€ํƒœ์Šคํฌ ๊ฐ„ trade-off ์ตœ์ ํ™” ๋ฏธํก, ํŠน์ • ํƒœ์Šคํฌ ๊ณผ์†Œํ•™์Šต ๊ฐ€๋Šฅ

2. ์ €์ž๊ฐ€ ์•”์‹œ๋งŒ ํ–ˆ๊ฑฐ๋‚˜ ์–ธ๊ธ‰ํ•˜์ง€ ์•Š์€ ์ž ์žฌ์  ํ•œ๊ณ„

๋ฒ”์ฃผ์ž ์žฌ ํ•œ๊ณ„(ํ•„์ž ์ถ”์ •)๊ด€๋ จ ์‚ฌ์‹คยท์ˆ˜์น˜์ด์œ ยทํŒŒ๊ธ‰ํšจ๊ณผ
๋ชจ๋ธ ์šฉ๋Ÿ‰ยท๋งฅ๋ฝํ…์ŠคํŠธ ์ปจํ…์ŠคํŠธ 4 096 ํ† ํฐ ํ•œ๊ณ„DeepSeek-LLM(1.3 B) max seq = 4096๊ธธ์ด 10 K+ ๋ฌธ์„œ QAยท๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋…ผ๋ฌธ ์š”์•ฝ ๋“ฑ์—์„œ ์ œ์•ฝ
์‹œ๊ฐ ์ƒ์„ฑ ํ’ˆ์งˆ16ร— ๋‹ค์šด์ƒ˜ํ”Œ + 16 384 ์ฝ”๋“œ๋ถ โ†’ ๋ฏธ์„ธ ํŒจํ„ด ์†์‹คยท๋ธ”๋ก์„ฑโ€œdownsamples images by a factor of 16โ€ฆ codebook of size 16 384โ€์ž‘์€ ๊ฐ์ฒดยทํ…์ŠคํŠธ ๋ Œ๋”๋ง ์˜ค๋ฅ˜, FID ์Šค์ฝ”์–ด ์ƒํ•œ
์†๋„ยท์‹ค์šฉ์„ฑAR T2I โ†’ 384ยฒ ํ”ฝ์…€ ๊ธฐ์ค€ 1~2 s/์ด๋ฏธ์ง€(์ €์ž ์‹คํ—˜)ยน(์‹คํ—˜ ์„น์…˜ ์ถ”์ •)์‹ค์‹œ๊ฐ„ ์„œ๋น„์Šคยท๋Œ€ํ™”ํ˜• ์ƒ์„ฑ์—๋Š” ์ง€์—ฐ
์ž์›ยท์žฌํ˜„์„ฑ7 ์ผ ร— 128 A100 GPU ํ•™์Šตโ€œ7 days on 16 nodes ร— 8 A100(40 GB)โ€์ค‘์†Œ ์—ฐ๊ตฌ์ž๋Š” ์žฌํ˜„ยทํŒŒ์ธํŠœ๋‹ ๋‚œ์ด๋„โ†‘, ํƒ„์†Œ๋ฐฐ์ถœ ๋ฌธ์ œ
๋ฐ์ดํ„ฐยทํŽธํ–ฅ์˜๋ฌธยท์›น ์ด๋ฏธ์ง€ ํŽธ์ค‘ โžœ ๋ฌธํ™”ยท์ „๋ฌธ ๋„๋ฉ”์ธ ํŽธํ–ฅ๋ฐ์ดํ„ฐ ์…‹ ๋ชฉ๋ก์˜๋ฃŒ, ์œ„์„ฑ, ์ €ํ•ด์ƒ๋„ ๋ถ„์•ผ ์ผ๋ฐ˜ํ™” ๋ถˆํ™•์‹ค
์•ˆ์ „์„ฑ๊ฐ์ฒด/์†์„ฑ ํ™˜๊ฐ(Object Hallucination) ๋ถ„์„ ๋ถ€์žฌ(๋…ผ๋ฌธ ๋ฏธ๊ฑฐ๋ก )์‹ค์ œ VLM๋“ค์˜ ๋Œ€ํ‘œ์  ์ทจ์•ฝ์ ; ์ถ”ํ›„ ์ •๋ฐ€ ๋ฒค์น˜ ํ•„์š”

ยน ์ €์ž ๊ณต๊ฐœ ๋ฐ๋ชจ ๊ธฐ์ค€ ๋น„๊ณต์‹ ์ธก์ •.


3. ์š”์•ฝ & ์—ฐ๊ตฌยท์‹ค๋ฌด ์‹œ์‚ฌ์ 

  1. ํ™•๋Œ€ ๊ฐ€๋Šฅ์„ฑ โ€“ ํ•ด์ƒ๋„ยท์–ธ์–ดยท๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ํ™•์žฅ์€ ์„ค๊ณ„์ƒ ๊ฐ„๋‹จ(Separate Encoder)ํ•˜์ง€๋งŒ, VQ โ†’ Diffusion ๋Œ€์ฒด ๋“ฑ ๊ตฌ์กฐ์  ์—…๊ทธ๋ ˆ์ด๋“œ๊ฐ€ ์„ ๊ฒฐ ๊ณผ์ œ๋‹ค.
  2. ์‘์šฉ ์„ ํƒ โ€“ 384px ์ดํ•˜, ์˜๋ฌธ ์ค‘์‹ฌ UI, ๋น ๋ฅธ ํ”„๋กœํ† ํƒ€์ดํ•‘์—” ์ฆ‰์‹œ ์œ ์šฉ. ๋ฐ˜๋ฉด ๊ณ ํ•ด์ƒยท๋‹ค๊ตญ์–ดยท์‹ค์‹œ๊ฐ„ ์ƒ์„ฑ ๋˜๋Š” ์žฅ๋ฌธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ reasoning์—๋Š” ์ถ”๊ฐ€ ์—ฐ๊ตฌ ํ•„์š”.
  3. ํ›„์† ๊ณผ์ œ โ€“ (i) ๊ณ ํ•ด์ƒ๋„ Semantic-Tokenizer ๊ต์ฒด, (ii) ์žฅ๋ฌธ ๋น„์ „-ํ…์ŠคํŠธ ์••์ถ•ํ‘œํ˜„ ์—ฐ๊ตฌ, (iii) ํƒœ์Šคํฌ ๊ฐ€์ค‘์น˜ยท๋ฉ€ํ‹ฐ์˜ค๋ธŒ์ ํ‹ฐ๋ธŒ ํ•™์Šต ์ „๋žต, (iv) ํŽธํ–ฅยท์•ˆ์ „์„ฑ ๊ณต์‹ ํ‰๊ฐ€.

์ฐธ๊ณ 

์œ„ ํ‘œ์˜ โ€˜๊ทผ๊ฑฐโ€™ ์—ด์€ ๋…ผ๋ฌธ ๋ฌธ์žฅ์„ ์ง์ ‘ ์ธ์šฉํ•˜๊ฑฐ๋‚˜ ํ‘œยท๊ทธ๋ฆผ์— ๋ช…๊ธฐ๋œ ์ˆ˜์น˜๋ฅผ ๋”ฐ์˜จ ๊ฒƒ์ด๋‹ค. ๊ฐ ์ธ์šฉ์€ ์›๋ฌธ ํŽ˜์ด์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์˜จ๋ผ์ธ ๋ฒ„์ „(arXiv 2410.13848 v1)๊ณผ ๋™์ผํ•˜๋‹ค.

ํ”„๋กฌํ”„ํŠธ 1.5.2 (๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๊ถค์ )

PLAINTEXT
"์ €์ž๋“ค์ด ์ œ์•ˆํ•˜๋Š” ๊ตฌ์ฒด์ ์ธ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์€ ๋ฌด์—‡์ธ๊ฐ€? ์ด ๋…ผ๋ฌธ์˜ ํ•œ๊ณ„์ ์„ ๋ฐ”ํƒ•์œผ๋กœ, ์ด ์—ฐ๊ตฌ๋ฅผ ๋ฐœ์ „์‹œํ‚ค๊ฑฐ๋‚˜ ์•ฝ์ ์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์ถ”๊ตฌํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค๋ฅธ ๋…ผ๋ฆฌ์ ์ธ ๋‹ค์Œ ๋‹จ๊ณ„๋‚˜ ๋Œ€์•ˆ์ ์ธ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์€ ๋ฌด์—‡์ด ์žˆ์„๊นŒ?"
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

๐Ÿš€ TL;DR โ€” ์ €์ž โ€œJanusโ€์˜ ๋‹ค์Œ ์Šคํ…๊ณผ ์šฐ๋ฆฌ๊ฐ€ ์ œ์•ˆํ•˜๋Š” ํ›„์† ์—ฐ๊ตฌ

  • ์ €์ž ์ œ์•ˆ 3๋Œ€ ๋ฐฉํ–ฅ

    1. ๋” ์„ธ๋ฐ€ํ•œ ์ƒ์„ฑ ์ธ์ฝ”๋” (MoVQGan ๋“ฑ)๋กœ ํ•ด์ƒ๋„ยทFID ์ถ”๊ฐ€ ๊ฐœ์„ 
    2. ์ƒ์„ฑ์šฉ ํ•™์Šต ์ „๋žต ๊ณ ๋„ํ™” โ€” Diffusion loss, AR + Bidirectional ํ˜ผํ•ฉ์œผ๋กœ ์˜ค๋ฅ˜ ๋ˆ„์ ยท์งˆ๊ฐ ํ’ˆ์งˆ ํ•ด๊ฒฐ
    3. ์ƒˆ ๋ชจ๋‹ฌ ํ”Œ๋Ÿฌ๊ทธ์ธ โ€” 3D Point-Cloud, EEG, Tactile, Audio ์ธ์ฝ”๋”๋ฅผ ๊ฐ™์€ Transformer์— ์ ‘์† (ํ”Œ๋Ÿฌ๊ทธ์ธํ˜• ํ™•์žฅ)
  • ์ถ”๊ฐ€๋กœ ๊ณ ๋ คํ•  4๊ฐ€์ง€ ์—ฐ๊ตฌ ๊ถค์  (ํ•œ๊ณ„ ๋ณด์™„)

    1. ๊ณ ํ•ด์ƒ๋„ยท์ €FID๋ฅผ ์œ„ํ•œ โ€œHybrid-Tokenizerโ€ (VQ16ร— + VQ4ร— patch fusion)
    2. ์ปจํ…์ŠคํŠธ 16 k+ ํ™•์žฅ & ๋ณตํ•ฉ ๊ธธ์ด ์–ดํ…์…˜ โ€” Hydragen-style ํ”„๋ฆฌํ”ฝ์Šค ๊ณต์œ  ์ฃผ์ž…
    3. ํ† ํฌ๋‚˜์ด์ €-ํ”„๋ฆฌ ํŒŒ๋ผ๋  ๋””ํ“จ์ „ ํ—ค๋“œ โ€” AR ์†๋„ ๋ณ‘๋ชฉ ํ•ด์†Œ, ๋ชจ๋ฐ”์ผ ์ถ”๋ก  10ร— ๊ฐ€์†
    4. ๋‹ค๊ตญ์–ด/๋„๋ฉ”์ธ ํŽธํ–ฅ ์™„ํ™” โ€” ๋น„์˜์–ด T2Iยท์ „๋ฌธ ์ด๋ฏธ์ง€(์˜๋ฃŒ, ์œ„์„ฑ)๋กœ ๋‹จ๊ณ„์  curriculum-mix

1. ์ €์ž๊ฐ€ ์ง์ ‘ ์–ธ๊ธ‰ํ•œ ๊ตฌ์ฒด์  ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

๋ถ„๋ฅ˜์ œ์•ˆ ๋‚ด์šฉ๊ธฐ๋Œ€ ํšจ๊ณผ
์ธ์ฝ”๋” ๊ต์ฒดโ€œfiner-grained encoders (e.g., MoVQGan) can be chosen to preserve more image detailsโ€ํ•ด์ƒ๋„ โ†‘, FID โ†“
Loss ๋ฐ ๋””์ฝ”๋”ฉโ€œloss functions specifically designed for visual generation, such as diffusion lossโ€ฆ a combination of AR and parallel methods can reduce accumulated errorsโ€ํ…์Šค์ฒ˜ยท๊ธ€์ž ๋ˆ„๋ฝ ๊ฐ์†Œ, ์†๋„ โ†‘
๋ชจ๋‹ฌ ํ™•์žฅ์„ฑโ€œeasy integration with additional encodersโ€ฆ point clouds, EEG, audioโ€๋ฉ€ํ‹ฐ์„ผ์„œยท3D ์ธ์ง€ยท์˜๋ฃŒ ๋“ฑ ๋ฒ”์šฉ์„ฑ

์š”์ปจ๋Œ€ ๋“€์–ผ ์ธ์ฝ”๋” ๊ตฌ์กฐ ์ž์ฒด๊ฐ€ ๊ต์ฒดยท์ถ”๊ฐ€๊ฐ€ ์‰ฝ๋‹ค๋Š” ์ ์„ ํ™œ์šฉํ•ด โ€œํ•ด์ƒ๋„ โ†’ ํ•™์Šต ๋ชฉํ‘œ โ†’ ๋ชจ๋‹ฌ ๊ฐฏ์ˆ˜โ€ 3์ถ•์—์„œ ๋‹จ๊ณ„์  ํ™•์žฅ์„ ๊ถŒ์žฅํ•œ๋‹ค.


2. ๋…ผ๋ฌธ์˜ ํ•œ๊ณ„์—์„œ ํŒŒ์ƒ๋˜๋Š” ์ถ”๊ฐ€ ์—ฐ๊ตฌ ๊ถค์  (ํ•„์ž ์ œ์•ˆ)

#๊ฐœ์„  ์•„์ด๋””์–ด์™œ ํ•„์š”ํ•œ๊ฐ€?์‹คํ˜„ ๋‚œ์ ยทํ•ด๊ฒฐ ์‹ค๋งˆ๋ฆฌ
AHybrid Tokenizer (16ร— + 4ร—)
โ”” ์ €ํ•ด์ƒ๋„ 384ยฒ ์ œ์•ฝ ๊ทน๋ณต
384ร—384 ๋ฆฌ์‚ฌ์ด์ฆˆ๋กœ ์„ธ๋ฐ€ ๊ฐ์ฒด๊ฐ€ ๊นจ์งMoVQGan 4ร—, Patch-SR ์—ฐ๊ฒฐ โ†’ LLM ์ž…๋ ฅ ๊ธธ์ด ๊ด€๋ฆฌ
B์žฅ๋ฌธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ 16 k+
(ํ”„๋ฆฌํ”ฝ์Šค ๊ณต์œ  Hydragen ์‚ฝ์ž…)
ํ˜„์žฌ 4 096 ํ† ํฐ ํ•œ๊ณ„ โ†’ ๋…ผ๋ฌธยท์ฝ”๋“œ ์Šคํฌ๋กค QA ๋ถˆ๊ฐ€Prefix KV ๊ณต์œ  + ํ›„์œ„ Attention ๋ถ„ํ•ด
CToken-Free Parallel Diffusion HeadAR ์ด๋ฏธ์ง€ ํ† ํฐ 1 โ€“ 2 FPS โ†’ ๋Œ€ํ™”ํ˜• ์„œ๋น„์Šค ๋А๋ฆผCond-Diffusion ํ—ค๋“œ๋งŒ ๋ณ‘๋ ฌ ์ถ”๋ก , ํ…์ŠคํŠธ-LLM์€ ์œ ์ง€
D๋‹ค๊ตญ์–ด & ์ „๋ฌธ ๋„๋ฉ”์ธ Curriculum์˜๋ฌธ T2I ๋ฐ์ดํ„ฐ ํŽธ์ค‘ โ†’ ๋ฌธํ™”ยท์˜๋ฃŒ ํŽธํ–ฅ๋‹จ๊ณ„์  ํ˜ผํ•ฉ(์˜๋ฌธโ†’๋‹ค๊ตญ์–ดโ†’์ „๋ฌธ) + ์—ญ๋ฒˆ์—ญ ์ฆ๊ฐ•

3. ์—ฐ๊ตฌ ๋กœ๋“œ๋งต ์˜ˆ์‹œ (์—ฐ๋„ยท๊ทœ๋ชจ ๊ธฐ์ค€)

๋‹จ๊ณ„๋ชฉํ‘œํ•ต์‹ฌ ์•ก์…˜์˜ˆ์ƒ ์„ฑ๊ณผ
2025 H2FID < 7 @512ยฒHybrid-Tokenizer + Diffusion-Loss pre-finetuneShow-o(9.2) ๋Œ€๋น„ โ€“25 %
2026 H13D Point-Cloud ์ž…๋ ฅPointNeXt Encoder โ†’ Adaptor ๋ถ™์ž„indoor-Nav QA 70 % โ†‘
2026 H2Context 16 kHydragen Prefix-Batch + GQA KV๋…ผ๋ฌธ QA ์ •ํ™•๋„ +8 pt
2027๋‹ค๊ตญ์–ด & ์ž„๋ฒ ๋””๋“œ NPUCross-lingual curriculum + Parallel Head INT4์•„์‹œ์•„๊ถŒ GenEval-ko 60 % ๋‹ฌ์„ฑ, ๋ชจ๋ฐ”์ผ 30 ms

โœจ ๋งˆ๋ฌด๋ฆฌ

Janus๊ฐ€ ์ œ์‹œํ•œ โ€œ๋‘ ์–ผ๊ตด, ํ•œ Transformerโ€ ์„ค๊ณ„๋Š” ์ด๋ฏธ ํ‘œํ˜„ ์ถฉ๋Œ์„ ํ•ด์†Œํ–ˆ๋‹ค. ์•ž์œผ๋กœ์˜ ํ•ต์‹ฌ ๊ณผ์ œ๋Š” (i) ๋””ํ…Œ์ผ ๋ณด์กด, (ii) ์†๋„ยทํ•ด์ƒ๋„ ์–‘๋ฆฝ, (iii) ๋ชจ๋‹ฌยท์–ธ์–ด ๋‹ค๋ณ€ํ™”๋‹ค. ์œ„ ํ‘œ์™€ ๊ฐ™์ด ํ† ํฌ๋‚˜์ด์ €ยท์–ดํ…์…˜ยทํ•™์Šต ์‚ผ๊ฐ ๊ฐœ์„ ์„ ๋ณ‘ํ–‰ํ•˜๋ฉด, 1 ~ 2 ๋…„ ๋‚ด **๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ GPT-4 ๋ ˆ๋ฒจ โ€œ๋ฒ”์šฉ ์‹œ๊ฐ+์ƒ์„ฑ ์—์ด์ „ํŠธโ€**๋กœ ์ง„ํ™”ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

ํ”„๋กฌํ”„ํŠธ ๋ฐ์ดํ„ฐ ๋ฐ ์ „์ฒ˜๋ฆฌ

PLAINTEXT
"ํ•™์Šต ๋ฐ ์ถ”๋ก ์— ์‚ฌ์šฉ๋œ ์ด๋ฏธ์ง€ ํ•ด์ƒ๋„๋Š” ์–ผ๋งˆ์ธ๊ฐ€? ์ ์šฉ๋œ ๊ตฌ์ฒด์ ์ธ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(data augmentation) ๊ธฐ๋ฒ•(์˜ˆ: random cropping, color jitter, CutMix)์„ ์„ค๋ช…ํ•˜๊ณ , ์ด๊ฒƒ์ด ์ด ํŠน์ • ๋น„์ „ ๊ณผ์ œ์— ์™œ ์ค‘์š”ํ•œ์ง€ ์„ค๋ช…ํ•ด ์ค˜."
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

โฉ ํ•œ๋ˆˆ์— ๋ณด๋Š” ๊ฒฐ๋ก 

  • ํ•™์Šตยท์ถ”๋ก  ์ž…๋ ฅ ํ•ด์ƒ๋„: 384 ร— 384 px ๊ณ ์ •.
  • ์ฃผ์š” ์ „์ฒ˜๋ฆฌยท์ฆ๊ฐ•
    ๋ฐ์ดํ„ฐ ์˜์—ญ๋‹จ๊ณ„์„ธ๋ถ€ ๋‚ด์šฉ๋ชฉ์ 
    ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ดโ‘  ์Šค์ผ€์ผ๊ธด ๋ณ€(long side)์„ 384 px๋กœ ๋น„์œจ ์œ ์ง€ ๋ฆฌ์‚ฌ์ด์ฆˆ๋‚ด์šฉ ์™œ๊ณก ์ตœ์†Œํ™”
    โ‘ก ํŒจ๋”ฉ์งง์€ ๋ณ€์„ RGB (127, 127, 127) ๋กœ ํŒจ๋”ฉ โ‡’ 384 ร— 384SigLIP-Large(Patch16-384) ์ž…๋ ฅ ๊ทœ๊ฒฉ ์ผ์น˜, ํŒจ์น˜ ๊ฒฝ๊ณ„ ์ •๋ณด ๋ณด์กด
    ์‹œ๊ฐ ์ƒ์„ฑโ‘  ์Šค์ผ€์ผ์งง์€ ๋ณ€(short side)์„ 384 px๋กœ ๋ฆฌ์‚ฌ์ด์ฆˆ๊ณต๊ฐ„ ํ•ด์ƒ๋„ ํ†ต์ผ
    โ‘ก ํฌ๋กญ๊ธด ๋ณ€์„ 384 px๋กœ ํฌ๋กญ(์ค‘์•™/๋žœ๋ค ๊ฐ€๋Šฅ)VQ ํ† ํฌ๋‚˜์ด์ €(16ร— ๋‹ค์šด์ƒ˜ํ”Œ)์™€ ์ •๋ฐฉํ˜• ํ† ํฐ ๊ฒฉ์ž ์ •ํ•ฉ

์„ธ๋ถ€ ํ•ด์„ค

  1. ํ•ด์ƒ๋„ ์„ ํƒ ๊ทผ๊ฑฐ

    • SigLIP-Large-Patch16-384 ๋น„์ „ ์ธ์ฝ”๋”๋Š” 384 ร— 384 ์ž…๋ ฅ์—์„œ ํŒจ์น˜ ์ˆ˜๊ฐ€ 24 ร— 24=576๊ฐœ๋กœ ๊ณ ์ •๋ผ ํ† ํฐ ์ˆ˜์™€ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์ด ์•ˆ์ •๋œ๋‹ค.
    • VQ ํ† ํฌ๋‚˜์ด์ €๋Š” 16๋ฐฐ ๋‹ค์šด์ƒ˜ํ”Œ์ด๋ฏ€๋กœ 384 px โ†’ 24 px ํ† ํฐ ๊ฒฉ์ž๊ฐ€ ๋˜๊ณ , ์–ธ๋”/์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง ์—†์ด ํ”ฝ์…€ยทํ† ํฐ ์ •๋ ฌ์ด ๋งž๋Š”๋‹ค.
  2. ์ „์ฒ˜๋ฆฌยท์ฆ๊ฐ• ์ „๋žต

    ์ „๋žต์™œ ์ค‘์š”ํ•œ๊ฐ€?
    ๋น„์œจ ์œ ์ง€ ๋ฆฌ์‚ฌ์ด์ฆˆ + ํŒจ๋”ฉ(์ดํ•ด)์ž„์˜ ํฌ๋กญ์„ ํ”ผํ•จ์œผ๋กœ์จ ์งˆ๋ฌธโ€“๋‹ต๋ณ€ ํ›ˆ๋ จ์—์„œ ๋ฌผ์ฒดยทํ…์ŠคํŠธ๊ฐ€ ์ž˜๋ฆฌ์ง€ ์•Š๋„๋ก ๋ณด์žฅ โ†’ ์–ธ์–ด ํ† ํฐ๊ณผ ์‹œ๊ฐ ํ† ํฐ ์ •๋ ฌ ์˜ค์ฐจ โ†“
    ์Šค์ผ€์ผ + ํฌ๋กญ(์ƒ์„ฑ)์ƒ์„ฑ ์ชฝ์€ ๋ฐฐ๊ฒฝ๊นŒ์ง€ ์„ธ๋ฐ€ํ•œ ์ง€์—ญ ๋ถ„ํฌ๋ฅผ ํ•™์Šตํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ๋ชจ๋“  ์œ„์น˜๊ฐ€ ํ† ํฐ ๊ทธ๋ฆฌ๋“œ์— ๋งคํ•‘๋˜๋„๋ก ์ •๋ฐฉํ˜• ํฌ๋กญ์„ ์ ์šฉ โ†’ ํ† ํฐ ์˜ˆ์ธก ์•ˆ์ •ํ™”
    ๊ณ ์ • ํ•ด์ƒ๋„ ์‚ฌ์šฉ๋™์ผํ•œ LLM ์‹œํ€€์Šค ๊ธธ์ด(โ‰ค4096) ์•ˆ์—์„œ ์ด๋ฏธ์ง€ยทํ…์ŠคํŠธ๋ฅผ ๋ฐฐ์น˜(pack)ํ•  ๋•Œ ๊ธธ์ด ์˜ˆ์ธก์ด ๋‹จ์ˆœํ•ด์ ธ ํ•™์Šต ํšจ์œจ โ†‘
  3. ์™œ ๋žœ๋ค Color Jitter / CutMix ๋“ฑ์ด ์—†๋Š”๊ฐ€?

    • ๋ณธ ๊ณผ์ œ๋Š” ์‹œ๊ฐโ€“์–ธ์–ด ์ •๋ ฌ๊ณผ ํ”ฝ์…€-๋ ˆ๋ฒจ ์žฌ์ƒ์„ฑ์„ ๋™์‹œ์— ์š”๊ตฌ.
    • ๊ฐ•ํ•œ ์ƒ‰ยท์ฝ˜ํŠธ๋ผ์ŠคํŠธ ๋ณ€ํ˜•์€ ํ…์ŠคํŠธ ์บก์…˜๊ณผ์˜ ๋Œ€์‘์„ ํ๋ฆด ์œ„ํ—˜์ด ์ปค์„œ ๋ณด์ˆ˜์  ์ฆ๊ฐ•(๋ฆฌ์‚ฌ์ด์ฆˆยทํฌ๋กญยทํŒจ๋”ฉ)๋งŒ ์ฑ„ํƒํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค.

์š”์•ฝ: Janus๋Š” 384ร—384 px ๋‹จ์ผ ํ•ด์ƒ๋„์™€ ํ˜•ํƒœ ๋ณด์กด ์ค‘์‹ฌ์˜ ๊ฒฝ๋Ÿ‰ ์ฆ๊ฐ•(ํŒจ๋”ฉยทํฌ๋กญ)์œผ๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด-์ƒ์„ฑ ๋‘ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋ชจ๋‘ ๋งŒ์กฑ์‹œํ‚ค๋Š” ์ž…๋ ฅ ํ† ํฐ ์ •ํ•ฉ์„ฑ์„ ํ™•๋ณดํ–ˆ๋‹ค.

ํ”„๋กฌํ”„ํŠธ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜

PLAINTEXT
"์‚ฌ์šฉ๋œ ๋ฐฑ๋ณธ ์•„ํ‚คํ…์ฒ˜๋Š” ๋ฌด์—‡์ธ๊ฐ€(์˜ˆ: ResNet, ViT, ConvNeXt)? ๊ณต๊ฐ„์  ํŠน์ง•(spatial features)์€ ์–ด๋–ป๊ฒŒ ์ถ”์ถœ๋˜๊ณ  ์œตํ•ฉ๋˜๋Š”๊ฐ€? ๋งŒ์•ฝ ํƒ์ง€(detection)๋‚˜ ๋ถ„ํ• (segmentation) ๊ณผ์ œ๋ผ๋ฉด, ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋‚˜ ๋งˆ์Šคํฌ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜(์˜ˆ: anchor boxes, region proposal network)์„ ์„ค๋ช…ํ•ด ์ค˜."
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

๐Ÿš€ ํ•œ ์ค„ ์š”์•ฝ

Janus๋Š” ViT-๊ณ„์—ด SigLIP-Large-Patch16-384(์ดํ•ด์šฉ)๊ณผ VQGAN-์Šคํƒ€์ผ CNN Tokeniser(์ƒ์„ฑ์šฉ)์ด๋ผ๋Š” ๋‘ ๊ฐœ์˜ ๋น„์ „ ๋ฐฑ๋ณธ์„ ๋‘๊ณ , ๋‘ ๊ฒฝ๋กœ์˜ ์ถœ๋ ฅ์„ 1-D ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•ด DeepSeek-LLM 1.3 B AR-Transformer์— ๋‹จ์ˆœ concat์œผ๋กœ ์ฃผ์ž…ํ•œ๋‹ค. ๊ณต๊ฐ„์  ํŠน์ง•์€ ์ดํ•ด ๊ฒฝ๋กœ์—์„œ๋Š” 24 ร— 24 ํŒจ์น˜ ํ† ํฐ, ์ƒ์„ฑ ๊ฒฝ๋กœ์—์„œ๋Š” 24 ร— 24 VQ ์ฝ”๋“œ ๊ฒฉ์ž๋กœ ๋ณด์กด๋œ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ํƒ์ง€ยท๋ถ„ํ• ์„ ๋‹ค๋ฃจ์ง€ ์•Š์•„ ๋ฐ”์šด๋”ฉ-๋ฐ•์Šค๋‚˜ ๋งˆ์Šคํฌ๋ฅผ ์ง์ ‘ ์ƒ์„ฑํ•˜์ง€ ์•Š๋Š”๋‹ค.


1. ๋ฐฑ๋ณธ ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š”

๊ฒฝ๋กœ๋ฐฑ๋ณธํ•ต์‹ฌ ๋ธ”๋ก์ถœ๋ ฅ ํ† ํฐ/์ฑ„๋„์—ญํ• 
Multimodal ์ดํ•ดSigLIP-Large-Patch16-384 (ViT-L/16)16 ร— 16 ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ โ†’ 24 ร— 24 = 576 ํ† ํฐ, 1024-d๊ณ ์ฐจ์›์˜ semantic feature ์ถ”์ถœ
์ด๋ฏธ์ง€ ์ƒ์„ฑVQ Tokenizer (CNN Encoder + Vector Quantization, codebook 16 384, downsample ร—16)CNN stack โ†’ 24 ร— 24 ํ† ํฐ ID, 512-d ์ž„๋ฒ ๋”ฉ์ €์ฐจ์›์˜ ๊ณต๊ฐ„ ์„ธ๋ถ€ ํŒจํ„ด ์••์ถ•

๋‘ ๊ฒฝ๋กœ ๊ฒฐ๊ณผ๋Š” 2-์ธต MLP Adaptor(1024โ†’4096 / 512โ†’4096)๋กœ LLM ์ž…๋ ฅ ํฌ๊ธฐ์— ๋งž์ถฐ ํˆฌ์˜๋œ ๋’ค [E_txt; F_u; F_g] ํ˜•์‹์œผ๋กœ ์ด์–ด ๋ถ™์ธ๋‹ค.


2. ๊ณต๊ฐ„์  ํŠน์ง• ์ถ”์ถœยท์œตํ•ฉ ๊ณผ์ • (Step-by-Step)

  1. SigLIP ๊ฒฝ๋กœ 1.1 I โˆˆ โ„^{3ร—384ร—384}๋ฅผ 16 ร— 16 ํŒจ์น˜๋กœ ๋ถ„ํ•  โ†’ X โˆˆ โ„^{576ร—768} 1.2 12-head ViT L ์ธต์„ ๊ฑฐ์ณ Z_u โˆˆ โ„^{576ร—1024} ํš๋“. 1.3 F_u = A_u(Z_u) โˆˆ โ„^{576ร—4096}โ€”์œ„์น˜ ์ธ์ฝ”๋”ฉ ํฌํ•จ, ๊ฐ์ฒดยท๊ด€๊ณ„ semantic ๋ณด์กด.

  2. VQ Tokeniser ๊ฒฝ๋กœ 2.1 CNN-Encoder๊ฐ€ I๋ฅผ 24 ร— 24 ํ”ผ์ฒ˜๋งต์œผ๋กœ ๋‹ค์šด์ƒ˜ํ”Œ. 2.2 ๋ฐฑํ„ฐ ์–‘์žํ™”(VQ)๋กœ ๊ฐ 16ร—16 ์˜์—ญ์„ ์ฝ”๋“œ๋ถ ID(c_ij)๋กœ ์น˜ํ™˜. 2.3 ์ฝ”๋“œ๋ถ ์ž„๋ฒ ๋”ฉ E(c) โ†’ F_g = A_g(E(c)) โˆˆ โ„^{576ร—4096}โ€”ํ”ฝ์…€/์งˆ๊ฐ ์ •๋ณด ์••์ถ•.

  3. LLM ์œตํ•ฉ 3.1 ํ…์ŠคํŠธ ํ† ํฐ ์ž„๋ฒ ๋”ฉ E_txt โˆˆ โ„^{nร—4096}์™€ F_u, F_g๋ฅผ ์‹œํ€€์Šค ๋‹จ์ˆœ concat. 3.2 DeepSeek-LLM 1.3 B๊ฐ€ AR ๋ฐฉ์‹์œผ๋กœ ๋‹ค์Œ ํ† ํฐ(ํ…์ŠคํŠธ ๋˜๋Š” VQ ์ฝ”๋“œ) ์˜ˆ์ธก.


3. ํƒ์ง€ยท๋ถ„ํ•  ๊ด€๋ จ ์‚ฌํ•ญ

  • Janus๋Š” ๋ฒ”์šฉ QAยทT2I ๋ชจ๋ธ๋กœ ์„ค๊ณ„๋ผ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค(anchor, RPN)๋‚˜ ๋งˆ์Šคํฌ ์ƒ์„ฑ ๋ชจ๋“ˆ์ด ์—†๋‹ค.

  • ์—ฐ๊ตฌ์ž๊ฐ€ ํƒ์ง€/๋ถ„ํ• ๋กœ ํ™•์žฅํ•˜๋ ค๋ฉด:

    • (i) SigLIP ํŒจ์น˜ ํ† ํฐ ์œ„์— query-based DETR ํ—ค๋“œ๋ฅผ ์–น์–ด box ํšŒ๊ท€,
    • (ii) VQ ์ฝ”๋“œ ๋Œ€์‹  mask token์„ ์˜ˆ์ธกํ•˜๋„๋ก ์ด๋ฏธ์ง€ ํ—ค๋“œ๋ฅผ ๋ณ€๊ฒฝ,
    • (iii) ์ƒ์„ฑ ๊ฒฝ๋กœ CNN Decoder๋ฅผ U-Net์œผ๋กœ ๊ต์ฒด ํ›„ binary mask ์ถœ๋ ฅ, ๊ฐ™์€ ์™ธ๋ถ€ ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•ด์•ผ ํ•œ๋‹คโ€”ํ•˜์ง€๋งŒ ์ด๋Š” ๋ณธ ๋…ผ๋ฌธ ๋ฒ”์œ„๋ฅผ ๋„˜์–ด์„ ๋‹ค.

4. ์™œ ์ด๋Ÿฐ ์„ค๊ณ„๊ฐ€ ์ค‘์š”ํ•œ๊ฐ€?

  • ์ •๋ณด ์ž…์ž๋„ ๋งค์นญโ€”ViT(๊ณ ํ•ด์ƒ semantic) โ†” VQ(์ €ํ•ด์ƒ spatial) ๊ฐ„ ์ถฉ๋Œ์„ ๊ทผ๋ณธ ์ฐจ๋‹จํ•ด ์ดํ•ดยท์ƒ์„ฑ ์–‘์ชฝ ์„ฑ๋Šฅ์„ ๋™์‹œ์— ๋Œ์–ด์˜ฌ๋ฆผ.
  • ์œ„์น˜ ๋ณด์กดโ€”๋‘ ๊ฒฝ๋กœ ๋ชจ๋‘ 24ร—24 ๊ฒฉ์ž ํ† ํฐ์œผ๋กœ LLM ์‹œํ€€์Šค ๋‚ด ์œ„์น˜ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•ด cross-attention ์‹œ ์ •๋ฐ€ ๋งคํ•‘ ๊ฐ€๋Šฅ.
  • ํ”Œ๋Ÿฌ๊ทธ์ธ ๊ตฌ์กฐโ€”SigLIPยทVQ๋ฅผ EVA-CLIP, MoVQGan ๋“ฑ์œผ๋กœ ์‰ฝ๊ฒŒ ๊ต์ฒดยท์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ์–ด ํ•ด์ƒ๋„ยท๋ชจ๋‹ฌ ํ™•์žฅ์„ฑ์ด ๋†’๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, Janus๋Š” ViT์™€ VQGAN์„ ์–‘์†์— ์ฅ” ์ฑ„ ํ•˜๋‚˜์˜ Transformer๋กœ ์ดํ•ด์™€ ์ƒ์„ฑ์„ ๋ชจ๋‘ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ตฌ์กฐ์ด๋ฉฐ, ๊ณต๊ฐ„ ํŠน์ง•์€ 24 ร— 24 ํ† ํฐ ๊ฒฉ์ž์—์„œ ์†์‹ค ์—†์ด LLM์œผ๋กœ ํ˜๋Ÿฌ ๋“ค์–ด๊ฐ„๋‹ค.

ํ”„๋กฌํ”„ํŠธ๋ชจ๋ธ ํ‰๊ฐ€ ๋ฐ ์ง€ํ‘œ

PLAINTEXT
"์ •ํ™•๋„(accuracy) ์™ธ์— ์–ด๋–ค ๋‹ค๋ฅธ ์ง€ํ‘œ๊ฐ€ ์‚ฌ์šฉ๋˜์—ˆ๋Š”๊ฐ€(์˜ˆ: ํƒ์ง€๋ฅผ ์œ„ํ•œ mAP, ๋ถ„ํ• ์„ ์œ„ํ•œ IoU)? ์‹œ๊ฐ์  ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์ •์„ฑ์  ๋ถ„์„์ด ์žˆ๋Š”๊ฐ€? ์žˆ๋‹ค๋ฉด, ๋ชจ๋ธ์ด ์ธ์ƒ์ ์œผ๋กœ ์„ฑ๊ณตํ•œ ์˜ˆ์‹œ์™€ ์‹คํŒจํ•œ ์˜ˆ์‹œ๋ฅผ ํ•˜๋‚˜์”ฉ ์„ค๋ช…ํ•ด ์ค˜."
ํด๋ฆญํ•˜์—ฌ ๋” ๋ณด๊ธฐ

โœจ ํ•ต์‹ฌ ์ •๋ฆฌ (๋จผ์ € ์š”์•ฝ)

ํ‰๊ฐ€ ์ถ•์ฃผ์š” ์ง€ํ‘œJanus ์„ฑ์ ๋น„๊ณ 
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ดVQAv2 / GQA Accuracy
POPEยทMMBench ๋“ฑ ์ ์ˆ˜์‹(%)
VQAv2 61 %, GQA 59 %, POPE 87 % ๋“ฑโ€œ1.3 B ํŒŒ๋ผ๋ฏธํ„ฐโ€ ๋™๊ธ‰ ๋ชจ๋ธ ์ค‘ ์ตœ๊ณ 
์ด๋ฏธ์ง€ ์ƒ์„ฑ ํ’ˆ์งˆFIDโ†“ (COCO-30K, MJHQ-30K)8.53 / 10.10์ž‘์„์ˆ˜๋ก ์ข‹์Œ โ€” Show-o 9.24 ๋ณด๋‹ค โ†“
ํ”„๋กฌํ”„ํŠธ ์ค€์ˆ˜GenEval Accuracy โ†‘ (6 ๊ฐœ ์†์„ฑ)Overall 61 % โ€“ SDXL 55 % ๋ณด๋‹ค โ†‘Counting 0.30 ๋“ฑ ์„ธ๋ถ€ ์†์„ฑ ๊ณต๊ฐœ
์ถ”๊ฐ€ ๋ถ„์„Ablation โ€“ COCO FID, POPE ๋“ฑSigLIP+VQ ๋ถ„๋ฆฌ ๋ชจ๋ธ์ด ํฌํ•จ์‹œ๊ฐยท์–ธ์–ด ๊ฒฝ๋กœ ๋ถ„๋ฆฌ ํšจ๊ณผ ํ™•์ธ

1. ์‚ฌ์šฉ๋œ ์ •๋Ÿ‰ ์ง€ํ‘œ (Accuracy ์™ธ)

๋ฒ”์ฃผ์ง€ํ‘œ๋ชฉ์ ์™œ ์ค‘์š”ํ•œ๊ฐ€?
Frรฉchet Inception Distance (FID) โ†“์ƒ˜ํ”Œยท์‹ค์ œ ๋ถ„ํฌ ๊ฐ„ 2-์ฐจ ํ†ต๊ณ„ ๊ฑฐ๋ฆฌ์ƒ์„ฑ ์ด๋ฏธ์ง€์˜ ์„ธ๋ถ€ ์งˆ๊ฐ & ๋‹ค์–‘์„ฑ ํ‰๊ฐ€GANยทT2I ์ปค๋ฎค๋‹ˆํ‹ฐ ํ‘œ์ค€, ์ˆ˜์น˜๊ฐ€ ์ž‘์„์ˆ˜๋ก ์‹ค์ œ์™€ ์œ ์‚ฌ
GenEval ์„ธ๋ถ€ ์ •ํ™•๋„ โ†‘Single Obj, Two Obj, Counting, Color ๋“ฑ 6 ์†์„ฑ๋ณ„ ์ •ํ™•๋„โ€œํ”„๋กฌํ”„ํŠธ ์† ๋ฌธ์žฅ์  ์ œ์•ฝโ€์„ ์–ผ๋งˆ๋‚˜ ์ถฉ์‹คํžˆ ๋ฐ˜์˜ํ•˜๋Š”์ง€๋‹จ์ˆœ ํ‰๊ท  Accuracy๊ฐ€ ๊ฐ€๋ ค์ฃผ๋Š” ๋ณตํ•ฉยท์ˆ˜๋Ÿ‰ ์•ฝ์  ๋“œ๋Ÿฌ๋ƒ„
POPE / MME / MMBench ์ ์ˆ˜๊ฐœ์ฒด ์œ„์น˜ยท์†์„ฑ/์ง€์‹ ์งˆ๋ฌธยท์„ค๋ช… ๋Šฅ๋ ฅ ํ‰๊ฐ€๊ณ ๋‚œ๋„ VQA์— ๋Œ€ํ•œ ์ดํ•ด๋ ฅ์ •ํ™•๋„ ์™ธ์— โ€˜๋ถ€๋ถ„ ์ ์ˆ˜โ€™ ํ•ฉ์‚ฐ ๋ฐฉ์‹์œผ๋กœ fine-grained ์„ฑ๋Šฅ ๋น„๊ต
SEED Bench, MM-Vet ๋“ฑ์ƒํ™ฉ ์ธ์‹ยท์ถ”๋ก  ์ •๋‹ต๋ฅ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹ ๋„๋ฉ”์ธ ์ผ๋ฐ˜ํ™”๊ด‘๋ฒ”์œ„ํ•œ ์ดํ•ด ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ๋ชจ๋ธ ์ผ๊ด€์„ฑ ํ™•๋ณด ํ™•์ธ

โ€ป ํƒ์ง€(mAP)ยท๋ถ„ํ• (IoU) ์ง€ํ‘œ๋Š” ์ด ๋…ผ๋ฌธ ๋ฒ”์œ„(์ดํ•ดยท์ƒ์„ฑ) ๋ฐ–์ด๋ผ ์‚ฌ์šฉ๋˜์ง€ ์•Š์•˜๋‹ค.


2. ์ •์„ฑ์ (qualitative) ๊ฒฐ๊ณผ โ€” ์ €์ž๊ฐ€ ๋ณด์—ฌ์ค€ ์‚ฌ๋ก€

2-1 ์„ฑ๊ณต ์‚ฌ๋ก€ (Figure 4)

  • ํ”„๋กฌํ”„ํŠธ: โ€œSydney Opera House์™€ Eiffel Tower๊ฐ€ ๋‚˜๋ž€ํžˆ, ๋ฐ˜ ๊ณ ํ ์Šคํƒ€๋ฆฌ๋‚˜์ดํŠธ ํ•˜๋Š˜โ€

  • Janus ์ถœ๋ ฅ: 384ยฒ ํ•ด์ƒ๋„์—๋„ ์ดˆ๊ณ ๋ฐ€๋„ ๋ณ„ ์†Œ์šฉ๋Œ์ดยท๊ฑด๋ฌผ ์‹ค๋ฃจ์—ฃ ์ •ํ™•ํžˆ ์žฌํ˜„, ๋‘ ๋žœ๋“œ๋งˆํฌ ์ƒ‰์ฑ„ ๋Œ€๋น„๋„ ์œ ์ง€

  • ์™œ ๋‹๋ณด์ด๋‚˜?

    1. ๋ณตํ•ฉ ๊ฐ์ฒด ๋ฐฐ์น˜(๋‘ ๊ฑด์ถ•๋ฌผ) + ์Šคํƒ€์ผ ๋ณ€ํ˜•(๋กœ์ผ๋ง ํ•˜๋Š˜)์„ ํ•œ ์žฅ์—์„œ ๋งŒ์กฑ.
    2. ๋™์ผ ํ”„๋กฌํ”„ํŠธ์—์„œ LlamaGen / SDXL์€ ๋ฐฐ๊ฒฝยท๊ตฌ์กฐ๋ฌผ ํ•œ์ชฝ์ด ํ๋ฆฟํ•˜๊ฒŒ ์„ž์ž„ โ€” Janus๊ฐ€ ์ง€์‹œ ์ค€์ˆ˜๋ ฅ ์šฐ์œ„.

2-2 ์‹คํŒจ ๋˜๋Š” ์•ฝ์  ์‚ฌ๋ก€ (Counting ์†์„ฑ)

  • GenEval Counting ์นดํ…Œ๊ณ ๋ฆฌ ์ •ํ™•๋„ 0.30 ์€ Single-Obj 0.97 ๋Œ€๋น„ ๊ธ‰๊ฐ .

  • ์ €์ž๋“ค์€ ์ด๋ฏธ์ง€๋ฅผ ๋”ฐ๋กœ ์ œ์‹œํ•˜์ง„ ์•Š์•˜์ง€๋งŒ, โ€˜์„ธ ๋งˆ๋ฆฌ ๊ณ ์–‘์ด๋ฅผ ๊ทธ๋ ค๋ผโ€™ ๊ฐ™์€ ์ˆ˜๋Ÿ‰ ์กฐ๊ฑด์—์„œ ๊ฐœ์ฒด ์ˆ˜๋ฅผ ์ž์ฃผ ํ‹€๋ฆฌ๊ฑฐ๋‚˜ ๋ˆ„๋ฝ.

  • ์›์ธ:

    1. VQ ํ† ํฌ๋‚˜์ด์ € ร—16 ๋‹ค์šด์ƒ˜ํ”Œ๋กœ ์†Œํ˜•ยท๋ฐ˜๋ณต ๊ฐ์ฒด ํ† ํฐ ๊ฐ„ ํ˜ผ์„ .
    2. AR ๋””์ฝ”๋”ฉ์ด๋ผ ์ด์ „ ํ† ํฐ ์˜ค๋ฅ˜๊ฐ€ ๋ˆ„์ ๋˜๋ฉฐ ๋ˆ„๋ฝยท์ค‘๋ณต ๋ฐœ์ƒ.

3. ๋ถ„์„ & ์‹œ์‚ฌ์ 

  1. ์ •๋Ÿ‰-์ •์งˆ ๋ณด์™„

    • FID ๋ฐ GenEval ์†์„ฑ๋ณ„ ์ •ํ™•๋„๋ฅผ ํ•จ๊ป˜ ์ œ์‹œํ•ด ํ’ˆ์งˆยทํ”„๋กฌํ”„ํŠธ ์ค€์ˆ˜๋ฅผ ๋ถ„๋ฆฌ ํ‰๊ฐ€ํ•œ ์ ์ด ํŠน์ง•.
  2. ์•ฝ์  ํŒŒ์•…์— Counting ์ง€ํ‘œ๊ฐ€ ์œ ์šฉ

    • ์ข…ํ•ฉ ์ •ํ™•๋„๋งŒ ๋ณด๋ฉด ์ˆจ๊ฒจ์งˆ ๋ฌธ์ œ๋ฅผ ์†์„ฑ๋ณ„ ์ง€ํ‘œ๊ฐ€ ๋“œ๋Ÿฌ๋ƒ„ โ†’ ํ›„์† ์—ฐ๊ตฌ์—์„œ Fine-grained Tokenizer / Hybrid Diffusion Head ๋„์ž… ํ•„์š”.
  3. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ํŽธํ–ฅ

    • POPEยทMMBench ๋“ฑ ์ดํ•ด ํƒœ์Šคํฌ ์ ์ˆ˜๋Š” ๋†’์ง€๋งŒ, ๋ฏธ์„ธ ํ…์Šค์ฒ˜ ์ƒ์„ฑ(์ € FID)๊ณผ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ๊ด€์ธก โ€” ์‹œ๊ฐ ๊ฒฝ๋กœ ๋ถ„๋ฆฌ์˜ ์žฅ๋‹จ.

๊ฒฐ๋ก : Janus๋Š” FID 8.5ยทGenEval 61 %๋กœ 1 B๊ธ‰ ๋ชจ๋ธ ์ตœ์ƒ์œ„ ์„ฑ์ ์„ ๋‹ฌ์„ฑํ–ˆ์ง€๋งŒ, ๊ฐœ์ฒด ์ˆ˜ ์„ธ๊ธฐยท๋ณต์žกํ•œ ๊ธฐํ•˜์—์„œ๋Š” ์—ฌ์ „ํžˆ ์˜ค์ฐจ๊ฐ€ ๋ˆˆ์— ๋ˆ๋‹ค. ์ •์„ฑ์  ์˜ˆ์‹œ๋Š” ๊ณ ํ•ด์ƒ ์Šคํƒ€์ผ ๋ณ€ํ˜• ์„ฑ๊ณต๊ณผ, Counting ์˜ค๋ฅ˜ ์‚ฌ๋ก€๊ฐ€ ์ด๋ฅผ ์ž˜ ๋ณด์—ฌ์ค€๋‹ค.

๋ผ์ด์„ ์Šค

์ €์ž‘์ž: Jaehun Ryu

๋งํฌ: https://jaehun.me/posts/janus-decoupling-visual-encoding-for-unified-multimodal-understanding-and-generation/

๋ผ์ด์„ ์Šค: CC BY 4.0

์ด ์ €์ž‘๋ฌผ์€ ํฌ๋ฆฌ์—์ดํ‹ฐ๋ธŒ ์ปค๋จผ์ฆˆ ์ €์ž‘์žํ‘œ์‹œ 4.0 ๊ตญ์ œ ๋ผ์ด์„ ์Šค์— ๋”ฐ๋ผ ์ด์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ถœ์ฒ˜๋ฅผ ๋ฐํžˆ๋ฉด ์ƒ์—…์  ๋ชฉ์ ์„ ํฌํ•จํ•ด ์ž์œ ๋กญ๊ฒŒ ์ด์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

๋Œ“๊ธ€

๊ฒ€์ƒ‰ ์‹œ์ž‘

๊ฒ€์ƒ‰์–ด๋ฅผ ์ž…๋ ฅํ•˜์„ธ์š”

โ†‘โ†“
โ†ต
ESC
โŒ˜K ๋‹จ์ถ•ํ‚ค