๐ ํ ์ค ์์ฝ (TL;DR)
DreamCraft3D๋ 2-์คํ ์ด์ง 3D ์์ฑ ํ์ดํ๋ผ์ธ๊ณผ *Bootstrapped Score Distillation(BSD)*๋ผ๋ ๋น๋ฐ ๋ณ๊ธฐ๋ฅผ ๊ฒฐํฉํด, ๋จ ํ ์ฅ์ 2D ์ด๋ฏธ์ง(๋๋ ํ ์คํธ ํ๋กฌํํธ)๋ง์ผ๋ก๋ 360ยฐ ๊ธฐํ ์ผ๊ด์ฑ๊ณผ ์ฌ์ง๊ธ ๊ณ ํด์๋ ํ ์ค์ฒ๋ฅผ ๋์์ ๋ฌ์ฑํ๋ค.
๐ ํต์ฌ ์์ด๋์ด
Shape-First, Texture-Later
- Geometry Sculpting ๋จ๊ณ์์ 2D SDS(DeepFloyd IF)์ 3D-aware SDS(Zero-1-to-3 ViT)๋ฅผ ํผํฉํด Janusยท๊ตฌ์กฐ ์๊ณก์ ์ต์ํ.
- Texture Boosting ๋จ๊ณ์์ ๊ณ ์ ๋ ๊ธฐํ ์์ BSD ๋ฃจํ๋ฅผ ๋๋ ค DreamBooth ํ๋ผ์ด์ด์ 3D ๋ชจ๋ธ์ ๊ต๋๋ก ์งํ์์ผ ๋ํ ์ผยท์์ ์ผ๊ด์ฑ์ ๊ทน๋ํ.
๋์ ํ๋ผ์ด์ด ํ์ต ๋ ๋๋ง->DreamBooth finetune->๋ค์ ๋ ๋๋ง์ ๋ ๋ฒ ๋ฐ๋ณตํด, โ3D-์ธ์ 2D ํ๋ฅ ๋ชจ๋ธโ์ ์ค์๊ฐ์ผ๋ก ์ก์ฑํ๋ค.
๐ ๋ฐฐ๊ฒฝ: ๊ทธ๋ค์ด ํด๊ฒฐํ ๋ฌธ์
๊ธฐ์กด Text-to-3D ๋ชจ๋ธ์ ๋๋ ๋ง
- ๊ธฐํ ์ผ๊ด์ฑ ๋ถ์กฑ: Janus(๋ค์ค ์ผ๊ตด), ํ๋ค๋ฆฌ ํ์, ๋ท๋ฉด ๋ถ๋.
- ํ ์ค์ฒ ์ ๋ช ๋ ๋ถ์กฑ: ๊ณ ์ฃผํ๊ฐ ๋ญ๊ฐ์ง๊ฑฐ๋ ๋ธ๋ฌ.
- ํ์ชฝ์ ์ก์ผ๋ฉด ๋ค๋ฅธ ์ชฝ์ด ๋ฌด๋์ง๋ trade-off ๊ตฌ์กฐ.
โ๏ธ ์๋ก์ด ์ ๊ทผ๋ฒ: DreamCraft3D
์คํ ์ด์ง | ํต์ฌ ๋ฐฑ๋ณธ | ์ญํ |
---|---|---|
Geometry Sculpting | DeepFloyd IF U-Net + Zero-1-to-3 ViT | 2Dยท3D ํ์ด๋ธ๋ฆฌ๋ ๊ทธ๋๋์ธํธ๋ก ๊ตฌ์กฐ ์ก๊ธฐ |
Texture Boosting | Stable-Diffusion U-Net (+LoRA DreamBooth) | BSD ์์ค๋ก ๊ณ ํด์ ํ ์ค์ฒ & ๋ทฐ ์ผ๊ด์ฑ |
๊ธฐํ ํํ: Instant-NGP ํด์-๊ทธ๋ฆฌ๋ NeRF โ DMTet mesh๋ก ์ ํํด ๊ณ ์ฃผํ ๊ตฌ์กฐ๋ฅผ ๋ณด์กด.
๐ฌ ์๋ ์๋ฆฌ: ๊ตฌ์ฒด์ ์ธ ์์๋ก ์ดํด๋ณด๊ธฐ
Toy Example: 3 ร 3 ํ๋ฐฑ ํฝ์ โ์ ์ก๋ฉด์ฒดโ ์ด๋ฏธ์ง๋ฅผ 3D๋ก ๋ณต์ํ๋ค๊ณ ๊ฐ์ .
์ด๊ธฐํ โ ๋ชจ๋๋๋ฏธ ๊ฐ์ SDF(ฮธโ).
Geometry Sculpting
- 0ยฐ ์ ๋ฉด ๋ทฐ์์ LSDS ๊ทธ๋ผ๋ ์ ์ฉ โ ์ ๋ฉด ๋ฉด ์ค๊ณฝ ํ์ฑ.
- 45ยฐ, 90ยฐ ๋ทฐ๊น์ง Progressive View ํ์ฅ, Timestep Annealing์ผ๋ก coarseโfine.
- ๊ฒฐ๊ณผ: 3 ร 3 ร 3 voxel ํ๋ธ(์ ๋น) + DMTet mesh(๊ณ ์ฃผํ ์ฝ๋).
Texture Boosting (2 round BSD)
- ฮธgeo ๊ณ ์ ํ 9 ๋ฐฉํฅ ๋ ๋๋ง โ DreamBooth LoRA ์ฌํ์ต.
- LBSD = โฮตDreamBooth โ ฮตLoRAโยฒ ๊ทธ๋๋์ธํธ๋ก ํ ์ค์ฒ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ.
- ๋ ๋ฒ ๋ฐ๋ณตํ๋ฉด ๋ฉด/๋ชจ์๋ฆฌ ๊ฐ์ด 6-9 ์์ค์ผ๋ก ์ ๋ช ํด์ง๊ณ , ๋ท๋ฉด๋ ๋์ผํ๊ฒ ์์น .
๊ฒฐ๋ก : ์ฅ๋ฉดยท์์ ์ ๊ด๊ณ์์ด ๋์ผํ ํ๋ธ๊ฐ ์์ฑโJanus๊ฐ ์ฌ๋ผ์ง๊ณ ๊ณ ์ฃผํ ํ ์ค์ฒ๊ฐ ์ด์๋๋ค.
๐ ์ฑ๋ฅ ๊ฒ์ฆ: ์ฃผ์ ๊ฒฐ๊ณผ
์งํ | โ/โ | DreamCraft3D | ์ต๊ณ SOTA ๋๋น |
---|---|---|---|
LPIPS | โ | 0.005 | 10 ร ๊ฐ์ |
PSNR (dB) | โ | 31.8 | +12.9 dB |
CLIP | โ | 0.896 | +0.024 |
Contextual | โ | 1.579 | โ0.030 |
- ์ฌ์ฉ์ ์ฐ๊ตฌ: 32 ๋ช ยท480 ํฌํ ์ค 92 %๊ฐ DreamCraft3D๋ฅผ ์ ํ.
- ์ฑ๊ณต ์์: โ์ํผ์ฌ์ด์ธ ์์ค๊ณตโโ์๋์ง ํ์ ๋จธ๋ฆฌ์นด๋ฝ ๋ํ ์ผ์ด 360ยฐ ๋์ผ.
- ์คํจ ์์: โ์ฝ๋ผ๋ฆฌ ์ฝโโ์ ๋ฉด ๊น์ด ๋ชจํธ์ฑ์ผ๋ก ์ฝ๊ฐ ๋ญ๊ฐ์ง.
๐ง ์ฐ๋ฆฌ์ ๊ด์ : ๊ฐ์ , ํ๊ณ, ๊ทธ๋ฆฌ๊ณ ์ด ์ฐ๊ตฌ๊ฐ ์ค์ํ ์ด์
๊ฐ์
- ๊ธฐํ ร ํ ์ค์ฒ ์๋ฆฝ์ ์ฒ์์ผ๋ก ์ค์ง์ ์ผ๋ก ๋ฌ์ฑ.
- ๋์ BSD ์์คโ2D ํ๋ผ์ด์ด์ 3D ๋ชจ๋ธ์ ์ํธ ๋ถ์คํธ.
- ํญ๋์ ์งํ(์๋งจํฑยท๊ตฌ์กฐยท์ง๊ฐ)์ ์ธ๊ฐ ํ๊ฐ๋ก ๊ฒ์ฆ.
ํ๊ณ
- ๊น์ด ๋ชจํธ์ฑ: ๋จ์ผ ๋ทฐ ์์กด โ ๋น๊ฐ์ฒดยท๋ณต์ก ํ์ ์ค๋ฅ.
- ์ฌ์งยท์กฐ๋ช ๋ถ๋ฆฌ ๋ฏธํก: PBR ์ํฌํ๋ก์ฐยท์ฌ์กฐ๋ช ์ ์ทจ์ฝ.
- ๊ณ ๋น์ฉ: NeRF+DreamBooth ๋ ๋ผ์ด๋ โ per-object ์์ญ ๋ถ.
- ์ค๋ฆฌยท์ ์๊ถ: ์ค์ฌ ์ธ๋ฌผ/๋ธ๋๋ 3D ์ฌํ ์ ๋ฅํ์ดํฌยทIP ์ํ.
์ ์ค์ํ๊ฐ?
- 3D ์์ ์ ์ ๋น์ฉยท์๊ฐ์ ๋ํญ ๋จ์ถ โ ๊ฒ์ยทVRยท์ํ ํ์ดํ๋ผ์ธ ํ์ .
- โShape-Texture Trade-offโ์ ๋ํ ์ฒซ ์ค์ง ํด๋ฒ์ผ๋ก ํ์ ์ฐ๊ตฌ์ ์ถ๋ฐ์ ์ ์.
๐ ๋ค์ ๋จ๊ณ๋?: ์์ผ๋ก์ ๊ธธ
์ฐ๊ตฌ ๊ณผ์ | ๊ธฐ๋ ํจ๊ณผ |
---|---|
๋ค์ค ์ฐธ์กฐ ๋ทฐ + ํ์ตํ depth estimator | ๊น์ด ๋ชจํธ์ฑ โ, Janus ์ถ๊ฐ ๊ฐ์ |
์ฌ์งยท์กฐ๋ช ๋ถ๋ฆฌ (Inverse Rendering) | ์ฌ์กฐ๋ช ยท๋๋ฉ์ธ ์ ์ด ์ง์, PBR ํธํ |
Feed-forward Distillation | 30 min โ < 10 s, ์ค์๊ฐ Text-to-3D |
๋์ ยท4D ํ์ฅ | ์ ๋๋ฉ์ด์ ยทAR/VR ์ฝํ ์ธ ์์ฑ |
Lightweight LoRA | DreamBooth fine-tune ๋น์ฉ โ 3 ร |
๊ฒฐ๋ก ์ ์ผ๋ก, DreamCraft3D๋ โ์ฌ์ง๊ธ ํ ์ค์ฒ ร 360ยฐ ์ผ๊ด์ฑโ์ด๋ผ๋ ๊ณ ์ง์ ๋์ ๋ฅผ ํ์ด ๋๊ณ , ๋ค์ ๋จ๊ณ๋ ์๋ยท๋ค์ค ์ฅ๋ฉดยท์ค๋ฆฌ์ ์์ฑ์ผ๋ก ๋์๊ฐ ๊ฒ์ด๋ค.
ํ ๊ธ์ ํด๋ฆญํ๋ฉด ๋ ผ๋ฌธ์ ๋ํ ์์ธํ LLM ์ง์์๋ต ๋ด์ฉ์ ํ์ธํ ์ ์์ต๋๋ค.
โถ๏ธํด๋ฆญํ์ฌ ํผ์น๊ธฐ
ํ๋กฌํํธ 1.1.1 (์ฐ๊ตฌ์ ๊ณต๋ฐฑ)
"๋
ผ๋ฌธ์ 'Introduction'๊ณผ 'Related Work' ์น์
์ ๋ถ์ํ์ฌ, ์ด ์ฐ๊ตฌ๊ฐ ๋ช
์์ ์ผ๋ก ํด๊ฒฐํ๊ณ ์ ํ๋ ํต์ฌ์ ์ธ ์ฐ๊ตฌ ๊ณต๋ฐฑ(research gap), ๊ธฐ์กด ์ฐ๊ตฌ์ ๊ฒฐ์ ์ ํ๊ณ, ๋๋ ๋ฏธํด๊ฒฐ ์ง๋ฌธ์ด ๋ฌด์์ธ์ง ์ค๋ช
ํด ์ค. ์ ์๋ค์ด ์ค๋ช
ํ๋, ์ด ๋
ผ๋ฌธ ์ถํ ์์ ์ '์ต์ ๊ธฐ์ (state of the art)'์ ์ด๋ค ์ํ์๋์ง ์์ฝํด ์ค."
๐ ํ๋์ ๋ณด๋ ๊ฒฐ๋ก (TL;DR)
- ์ฐ๊ตฌ ๊ณต๋ฐฑ : ๊ธฐ์กด 2D-to-3D ํ ์คํธ ์์ฑ๊ณ์ด(์: DreamFusion) ๋ชจ๋ธ์ ๊ฐ๋ณ ๋ทฐ์์๋ ๊ทธ๋ด๋ฏํ์ง๋ง, 360ยฐ ์ ๋ฐ์์ **โJanus(๋ค์ค ์ผ๊ตด) ๋ฌธ์ โ**์ ์ฌ๊ฐํ ํ ์ค์ฒ ๋ถ์ผ์น๊ฐ ๋จ๋๋ค. ๋ํ 3D ์ผ๊ด์ฑ์ ๋์ด๋ ค ์ถ๊ฐ๋ Zero-1-to-3 ๋ฅ์ ๋ทฐ ์กฐ๊ฑด ํ๋ฅ ๋ชจ๋ธ์ ํด์๋ยท์ง๊ฐ์ด ๋จ์ด์ ธ ์๋ณด๊ด๊ณ๊ฐ ์ ๋๋ก ์ด์ง ์๋๋ค.
- ์ด ๋ ผ๋ฌธ์ด ํผ ํต์ฌ : (1) Geometry Sculpting ๋จ๊ณ์์ 2D ๋ฐ 3D ํ๋ฅ ๋ชจ๋ธ์ ํผํฉ(distillation)ํ์ฌ ๊ธ๋ก๋ฒ ๊ธฐํ ์ ํฉ์ฑ์ ๋ฌ์ฑํ๊ณ , (2) Texture Boosting ๋จ๊ณ์์ Bootstrapped Score Distillation(BSD) ๋ฃจํ๋ฅผ ์ค๊ณ, ์ต์ ํ ์งํ๊ณผ ํจ๊ป ๋์ ์ผ๋ก ํ์ต๋๋ DreamBooth ๋ชจ๋ธ์ 3D ํ๋ผ์ด์ด๋ก ์ผ์ ๊ณ ํด์๋ ํ ์ค์ฒ๋ฅผ ํ๋ณดํ๋ค.
- ์ถํ ์์ SoTA : DreamFusionยทMagic3DยทProlificDreamer ๊ฐ์ ์ต์ฒจ๋จ ๋ฐฉ๋ฒ๋ค์ โ ์ฅ๋ฉด๋ณ ์๋ ด ์๊ฐ์ด ๊ธธ๊ณ , โก ๋ค์ค ์์ ๋ถ์ผ์น, โข ํ ์ค์ฒ ๊ณผํฌํยท๋ธ๋ฌ ํ์์ ํด๊ฒฐ ๋ชปํ๋ค. ์ด๋ฏธ์ง โ 3D ๊ณ์ด(Make-it-3D, Magic123)์ ์ ๋ฉด ์ด๋ฏธ์ง ํ์ง์ ๋์ง๋ง, 3D ๊ธฐํ๊ฐ ๋น์ฝํด 360ยฐ ๋ทฐ์์ ํ์๋๋ค. DreamCraft3D๋ ๊ณ์ธต์ ํ์ดํ๋ผ์ธ + BSD ์กฐํฉ์ผ๋ก ๋ ์ถ ๋ชจ๋๋ฅผ ์์ง๋ ๋ค.
1. ์ฐ๊ตฌ ๊ณต๋ฐฑ(Research Gap) ์ ๋ฆฌ
๊ตฌ๋ถ | ๊ธฐ์กด ๋ฐฉ๋ฒ | ๊ทผ๋ณธ์ ํ๊ณ | DreamCraft3D๊ฐ ์ฑ์ด ์ง์ |
---|---|---|---|
๊ธฐํ ์ผ๊ด์ฑ | DreamFusion, ProlificDreamer ๋ฑ SDS ๊ธฐ๋ฐ | ๋จ์ผ 2D ๋ชจ๋ธ๋ก๋ ๋ท๋ฉดยท์๋ฉด ์ ๋ณด ๋ฏธ์ ๊ณต โ Janus, ์ถ๊ฐ ํ๋ค๋ฆฌ ๋ฑ ๊ตฌ์กฐ ์๊ณก | 2D SDS + **3D-aware SDS(Zero-1-to-3)**๋ฅผ ๊ฐ์ค ํผํฉ, ์ ์ง์ ๋ทฐ ํ์ฅ & timestep annealing์ผ๋ก ํด๊ฒฐ |
ํ ์ค์ฒ ํ์ง | 3D ํ๋ผ์ด์ด ์ฌ์ฉ ์ ํด์๋ ์ดํ, ๊ณ ํด์๋ 2D ๋ชจ๋ธ ์ฌ์ฉ ์ ๋ทฐ ๋ถ์ผ์น | ๊ธฐํ vs ํ ์ค์ฒ ๋๋ ๋ง โ ๋ ์ค ํ๋๋ง ์กํ๋ ๋ฌธ์ | ๊ธฐํ ๊ณ ์ ํ BSD ๋ฃจํ๋ก DreamBooth ๋ชจ๋ธ์ ์ฅ๋ฉด ํนํยท3D ์ธ์ง๋ก ์ฌํ๋ จ, ๊ณ ํด์๋+์ผ๊ด์ฑ ๊ฒธ๋น |
์ต์ ํ ์์ ์ฑ | ๋๊ท๋ชจ guidance weight โ ๊ณผํฌํยท๋ธ๋ฌ | LoRA/VSD๋ก ์ผ๋ถ ๊ฐ์ ๋์ผ๋ ์ฌ์ ํ ๋ถ์์ | ํ์ด๋ธ๋ฆฌ๋ loss ๋ฐ 2-stage timestep annealing์ผ๋ก coarse-to-fine ํ์ต ์์ ํ |
ํต์ฌ ๋ฏธํด๊ฒฐ ์ง๋ฌธ
- 2D ๋ชจ๋ธ์ ์์๋ ฅ์ 3D๋ก ๋์ด์ฌ๋ฆฌ๋ฉด์ ์ ์ญ ๊ตฌ์กฐ๋ฅผ ๋ณด์ฅํ ๋ฐฉ๋ฒ?
- ๊ณ ํด์๋ ํ ์ค์ฒ๋ฅผ ๋ฃ๋, 360ยฐ ์ ๋ฐ์์ ์คํ์ผ ๋๋ฆฌํํธ๋ฅผ ์์จ ๋ฐฉ๋ฒ?
- ์ต์ ํ ๊ณผ์ ์์ ํ๋ผ์ด์ดยท3D ํํยทํ ์ค์ฒ๊ฐ ์ํธ ๊ฐํ๋๋๋ก ๋ง๋๋ ๋ฐฉ๋ฒ?
2. ์ ์ ๊ด์ ์ โ์ต์ ๊ธฐ์ ์ํโ ์์ฝ
๋ฐฉ๋ฒ๊ตฐ | ๋ํ ๋ ผ๋ฌธ & ๋ ๋ | ๊ฐ์ | ํ๊ณ(์ ์ ๊ธฐ์ค) |
---|---|---|---|
Text-to-3D SDS | DreamFusion (2022) | ์ฐฝ์์ 2D ํ์ฅ์ฑ | Janus, ํ ์ค์ฒ ๋ธ๋ฌยท๊ณผํฌํ, ํ์ต์๊ฐ ๊น |
Magic3D (2023) | coarse-to-fine ์ ๋ต์ผ๋ก ํ ์ค์ฒ ๊ฐ์ | ์ฌ์ ํ 3D ๋ถ์ผ์น, ๋ณต์ก ๊ธฐํ ๋ถ์ค | |
ProlificDreamer (2023) | VSD๋ก ํ ์ค์ฒ ์ ๋ช | ๊ตฌ์กฐ ํ์ ์ฌ๊ฐ, ๋ค์ค ์์น ๋ถ์ผ์น | |
Image-to-3D | Make-it-3D (2023) | ์ฐธ์กฐ ์ด๋ฏธ์ง ํ์ง ๋์ | ๋คยท์๋ฉด ๊ธฐํ ๋น์ฝ, Janus ๋ฐ์ |
Magic123 (2023) | Zero-1-to-3 ์ ๋ชฉ์ผ๋ก ๊ธฐํ ๋ณด์ | ํ ์ค์ฒ ๊ณผ๋ธ๋ฌ, ๊ณ ์ฃผํ ์์ค |
์์ฝ : 2023๋ ๋ง ๊ธฐ์ค, ๋ชจ๋ SoTA ๋ชจ๋ธ์ ๊ธฐํ ์ผ๊ด์ฑ vs ํ ์ค์ฒ ์ ๋ช ๋ ํธ๋ ์ด๋์คํ๋ฅผ ์์ ํ ํด์ํ์ง ๋ชปํ์ผ๋ฉฐ, โํ ์ฅ์ 360ยฐ๋ก ํ์ฅโํ๋ ๊ณผ์ ์์ ์ ๋ณด๋ฅผ ์๋ ๊ฒ์ด ๊ณตํต ํ๊ณ๋ค.
3. DreamCraft3D๊ฐ ์ ์ํ ํด๊ฒฐ ์ ๋ต
Geometry Sculpting
- 2D SDS + 3D-aware SDS(Zero-1-to-3) ํ์ด๋ธ๋ฆฌ๋ loss
- Progressive View Training : ์์ผ๊ฐ์ ๋จ๊ณ์ ์ผ๋ก ํ์ฅํด โํ์ ์๋ ๋ทฐ โ ๋ถํ์ค ๋ทฐโ ์ ํ
- Timestep Annealing : ์ด๊ธฐ์ tโ[0.7,0.85]๋ก ์ ์ญ ํํ, ํ๋ฐ tโ[0.2,0.5]๋ก ์ธ๋ถ ์ ๊ตํ
- Implicit Surface โ Mesh(DMTet) ์ ํ์ผ๋ก ๊ณ ์ฃผํ ๊ธฐํ ํ๋ณด
Texture Boosting(BSD)
- ๊ณ ์ ๋ ๊ธฐํ ์์์ DreamBooth Finetune + LoRA VSD
- ์ฅ๋ฉด ๋ ๋๋ง์ ๋ ธ์ด์ฆ ์ฃผ์ ํด โ๊ฐ์ง ๊ณ ํด์๋ ๋ฉํฐ๋ทฐ ๋ฐ์ดํฐ์ โ ๊ตฌ์ถ โ DreamBooth ์ฌํ์ต
- 3D ๋ชจ๋ธ โ Diffusion ๋ชจ๋ธ์ ๋ ๋ฒ(2-round) ๋ฒ๊ฐ์ ์ต์ ํํด ์ํธ ๋ถ์คํธ
4. ์ ์ค์ํ๊ฐ? (์ฐ๊ตฌ ์์)
- ์ด์ ํ๋ผ์ด์ด ํตํฉ : 2Dยท3D ํ๋ฅ ๋ชจ๋ธ์ ๋์์ distillationํ๋ ์ฒซ ์ฌ๋ก ์ค ํ๋.
- ๋์ BSD ๋ฃจํ : ์ต์ ํ ์ค์ ํ๋ผ์ด์ด ์์ฒด๋ฅผ ์งํ์ํค๋ ๋ฉ์ปค๋์ฆ ์ ์ โ ์๋ก์ด ํ ์ค์ฒ ํ์ต ํจ๋ฌ๋ค์.
- ์ค์ฉ์ฑ : ๊ตฌํ ์ฝ๋ & ๋ฐ์ดํฐ์ ๊ณต๊ฐ ์์ , ํ ์ฅ ์ด๋ฏธ์ง๋ง์ผ๋ก ๊ณ ํ์ง 3D ์์ฐ ์์ฑ โ ๊ฒ์ยทVR ๋ชจ๋ธ๋ง ์ํฌํ๋ก์ฐ ๋จ์ถ.
ํ๋กฌํํธ 1.1.2 (ํต์ฌ ๊ฐ์ค)
"์ด ๋
ผ๋ฌธ์ ์ค์ฌ ๊ฐ์ค(central hypothesis) ๋๋ ํต์ฌ ์ฃผ์ฅ์ ๋ฌด์์ธ๊ฐ? '์ ์๋ค์ [์ ์ ๊ธฐ๋ฒ]์ ์ฌ์ฉํจ์ผ๋ก์จ [๊ธฐ์กด ํ๊ณ์ ]์ ๊ทน๋ณตํ๋ [๊ตฌ์ฒด์ ๊ฒฐ๊ณผ]๋ฅผ ๋ฌ์ฑํ ์ ์๋ค๊ณ ๊ฐ์ ํ๋ค'์ ๊ฐ์ ํ์์ผ๋ก, ๋ช
ํํ๊ณ ๊ฐ๊ฒฐํ ํ ๋ฌธ์ฅ์ผ๋ก ์์ ํด ์ค."
์ ์๋ค์ **๊ณ์ธต์ 3D ์์ฑ ํ์ดํ๋ผ์ธ โDreamCraft3DโโGeometry Sculpting์ Bootstrapped Score Distillation(BSD)**์ ๊ฒฐํฉํจ์ผ๋ก์จ, ๊ธฐ์กด ํ ์คํธ-to-3D ๊ธฐ๋ฒ์ Janus ๋ฌธ์ ์ ์ ํด์๋ยท์์ ๋ถ์ผ์น ํ ์ค์ฒ ํ๊ณ๋ฅผ ๊ทน๋ณตํด ๋จ์ผ 2D ์ด๋ฏธ์ง(๋๋ ํ ์คํธ)๋ก๋ถํฐ 360ยฐ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉฐ ์ฌ์ง๊ธ ๊ณ ํด์๋์ ๋ณต์ก 3D ๊ฐ์ฒด๋ฅผ ์์ฑํ ์ ์๋ค๊ณ ๊ฐ์ ํ๋ค.
ํ๋กฌํํธ 1.2.1 (๋ ์ฐฝ์ฑ ์๋ณ)
"๋
ผ๋ฌธ ์ ์ฒด๋ฅผ ๋ฐํ์ผ๋ก, ๊ฐ์ฅ ์ค์ํ๊ณ ๋
์ฐฝ์ ์ธ ๊ธฐ์ฌ(contribution) 1~3๊ฐ์ง๋ฅผ ๊ตฌ๋ณ๋๋ ํญ๋ชฉ์ผ๋ก ๋์ดํด ์ค. ๊ฐ๊ฐ์ด ์๋ก์ด ์ํคํ
์ฒ ๊ตฌ์ฑ์์, ์๋ก์ด ํ์ต ๊ธฐ๋ฒ, ์๋ก์ด ์ด๋ก ์ ํต์ฐฐ, ์๋ก์ด ๋ฐ์ดํฐ์
, ๋๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์ ์๋ก์ด ์ ์ฉ ์ค ์ด๋์ ํด๋นํ๋์ง ๋ช
ํํ ๊ตฌ๋ถํด ์ค."
๐ TL;DR โ DreamCraft3D์ 3๋ ํต์ฌยท๋ ์ฐฝ์ ๊ธฐ์ฌ
- ๊ณ์ธต์ ํ์ดํ๋ผ์ธ: Geometry Sculpting โ Texture Boosting 2-stage ์ค๊ณ๋ก ๊ธฐํ-์ฐ์ โ ํ ์ค์ฒ-์ฐ์ ์์ฐจ ์ต์ ํ (์๋ก์ด ์ํคํ ์ฒ ๊ตฌ์ฑ์์)
- Bootstrapped Score Distillation (BSD): ์ต์ ํ ์ค ์์ฑ๋๋ ๋ฉํฐ๋ทฐ ๋ ๋๋ง์ผ๋ก DreamBooth๋ฅผ ๋ฐ๋ณต ์ฌํ๋ จํด 3D-์ธ์ ํ๋ผ์ด์ด๋ฅผ ๋์ ์ผ๋ก ์งํ์ํค๋ ๋ฃจํ (์๋ก์ด ํ์ต ๊ธฐ๋ฒ)
- 2D + 3D-aware Hybrid SDS & Progressive View/Timestep Annealing: DeepFloyd IF์ Zero-1-to-3๋ฅผ ๊ฐ์ค ํผํฉํ๊ณ , ์์ผ๊ฐยท๋ ธ์ด์ฆ ์ค์ผ์ค์ coarseโfine์ผ๋ก ํ์ฅํด Janusยท๊ธฐํ ํ์์ ์ต์ (๊ธฐ์กด SDS์ ์๋ก์ด ์ ์ฉ ๋ฐ ๊ฐ์ ๋ ํ์ต ์ ๋ต)
๐ ๊ธฐ์ฌ๋ณ ์ธ๋ถ ๊ตฌ๋ถ
# | ๋ ์ฐฝ์ ๊ธฐ์ฌ | ๋ถ๋ฅ | ํต์ฌ ์์ด๋์ด & ํจ๊ณผ |
---|---|---|---|
1 | Hierarchical 3D Generation Pipeline (Geometry Sculpting โ Texture Boosting) | ์๋ก์ด ์ํคํ ์ฒ ๊ตฌ์ฑ์์ | 3D-consistent ๊ธฐํ๋ฅผ ๋จผ์ ํ์ ํ ๊ณ ํด์๋ ํ ์ค์ฒ๋ฅผ ํ์ ์ฆ๊ฐ โ ๋ ๋ชฉํ(๊ธฐํ vs. ์ง๊ฐ)์ ํ์ ๋ถ๋ฆฌ๋ก ์ํธ ๊ฐ์ญ ์ต์ํ |
2 | Bootstrapped Score Distillation (BSD) | ์๋ก์ด ํ์ต ๊ธฐ๋ฒ | โ ๋ ๋๋ง โ DreamBooth ์ฌํ์ธํ๋ โ โก ์ ๋ฐ์ดํธ๋ DreamBooth๋ก 3D ํ ์ค์ฒ ์ฌ๊ฐ์ด๋ โ Iterative co-evolution์ผ๋ก ๋ทฐ ์ผ๊ด์ฑ + ๋ํ ์ผ ๋์ ํ๋ณด |
3 | Hybrid SDS (2D + 3D prior) + Progressive View & Timestep Annealing | ๊ฐ์ ๋ ํ์ต ์ ๋ต / ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์๋ก์ด ์ ์ฉ | DeepFloyd IF(๊ณ ํด์ ํ ์ค์ฒ) โ Zero-1-to-3(3D ์ผ๊ด์ฑ) ๊ฐ์ค ํผํฉ, ์์ผ๊ฐยท๋ ธ์ด์ฆ ์ค์ผ์ค์ ์ ์ง ํ๋ํด Janus โ 77 %, LPIPS โ 0.08 (๋ ผ๋ฌธ Table 1) |
ํ๋กฌํํธ 1.2.2 (์ ์ ๊ด์ ์์์ ๊ฐ์ )
"์ ์๋ค์ ๊ด์ ์์, ์์ ๋ค์ ์ ๊ทผ๋ฒ์ด ์ด์ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฐ์ํ ์ด์ ๋ ๋ฌด์์ธ๊ฐ? ๊ทธ๋ค์ด ์์ ๋ค์ ์ฐ๊ตฌ๊ฐ ์ง๋ ๋
์ฐฝ์ฑ๊ณผ ๊ฐ์ ์ ๋ท๋ฐ์นจํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ํต์ฌ ๋
ผ๊ฑฐ๋ฅผ ์ธ์ฉํ๊ฑฐ๋ ์๊ธฐ ์ฝ๊ฒ ์ค๋ช
ํด ์ค."
๐ ํ๋์ ๋ณด๋ ๊ฒฐ๋ก (TL;DR)
์ ์๋ค์ **โ๊ณ์ธต์ ํ์ดํ๋ผ์ธ ๏ผ Bootstrapped Score Distillation(BSD)โ**๋ฅผ ํตํด โ Janusยท๊ธฐํ ํ์์ ์ต์ ํ๊ณ โก ๊ณ ํด์๋ยท์์ ์ผ๊ด ํ ์ค์ฒ๋ฅผ ๋์์ ๋ฌ์ฑํ๋ค๊ณ ์ฃผ์ฅํ๋ค. ์ด๋ฅผ ๋ท๋ฐ์นจํ๊ธฐ ์ํด ์ ๋ ์งํยท์ฌ์ฉ์ ์ฐ๊ตฌยท์ญ์ ์คํ์์ ๋ชจ๋ ๊ธฐ์กด SoTA๋ฅผ ํฌ๊ฒ ์์ฐ๋ค๋ ์ฆ๊ฑฐ๋ฅผ ์ ์ํ๋ค.
1. ์ ์ ๊ด์ ์ โ์ ์ฐ์ํ๊ฐ?โ - ํต์ฌ ๋ ผ๊ฑฐ 3๊ฐ์ง
# | ํต์ฌ ๋ ผ๊ฑฐ | ๊ทผ๊ฑฐ (๋ณธ๋ฌธ ๊ทผ๊ฑฐ ๋ฌธ๊ตฌยท๊ทธ๋ฆผยทํ) | ์์ฝ ์ค๋ช |
---|---|---|---|
โ ์ ๋ ์ฑ๋ฅ ์๋ | Table 1: CLIP 0.896ยทPSNR 31.8ยทLPIPS 0.005 โ ๋ชจ๋ ์งํ์์ 5๊ฐ baseline ์ค 1์ | - PSNR์ Make-it-3D ๋๋น +68 % ์์น, โ- LPIPS๋ 10ร โ๋ก ํ ์ค์ฒ ์ผ์น๋ ๋ํญ ๊ฐ์ | |
โก ์ฌ์ฉ์ ์ ํธ๋ | Figure 5: 32 ๋ช ยท480 ์๋ต ์ค **92 %**๊ฐ DreamCraft3D ์ ํ | โํ์ค๊ฐยท์์ ์ผ๊ด์ฑยท๋ํ ์ผโ ์ธก๋ฉด์์ ์ธ๊ฐ ํ๊ฐ์์๋ ์ฐ์ธ | |
โข ์ญ์ (abl-study) ๊ทผ๊ฑฐ | Figure 6: โโข 3D prior ๋๋ฉด Janus ๊ธ์ฆ โโข SDS โ VSD โ BSD ์์ผ๋ก ํ ์ค์ฒ ์ผ๊ด์ฑโ ๋ํ ์ผโ | 3D-aware prior์ 2-round BSD๊ฐ ์ฑ๋ฅ ํฅ์์ ๊ฒฐ์ ์ ์์ ์ค์ฆ |
2. ๋ ผ๊ฑฐ๋ณ ์์ธ ํด์ค
์ ๋ ๋น๊ต๊ฐ ๋งํด์ฃผ๋ ๊ฒ
- CLIP โ: ํ ์คํธ-์๋งจํฑ ์ ํฉ์ฑ โ ์๋ฏธ ๋ณด์กด.
- Contextual โ & LPIPS โ: ํฝ์ ยท์ง๊ฐ ์์ค์์ ์์ ์ผ๊ด์ฑ ํ๋ณด.
- PSNR โ (31.8 dB): ๊ธฐ์กด ์ต๊ณ ์น๋ณด๋ค 9 dB ์ด์ โ ๊ณ ์ฃผํ ๋ํ ์ผ ๋ณด์กด.
์ธ๊ฐ ๋์ผ๋ก๋ ํ์ธ
- ์ฐธ๊ฐ์ 92 %๊ฐ DreamCraft3D๋ฅผ ์ ํํด โ๊ฐ์ง๋ก ๋ณด์ด์ง ์์ยท๋ค์ชฝ ๋ทฐ๋ ์์ฐ์ค๋ฌ์โ์ ์ง๋ชฉ.
- ์ ์๋ค์ ์ด๋ฅผ โ๋ชจ๋ธ์ด ์ค์ ์ํฌํ๋ก์ฐ์ ํฌ์ ๋ ์ค์ฉ ํ์งโ์ ์ฆ๊ฑฐ๋ก ์ ์.
์ ์ด ๊ตฌ์ฑ(3D-prior ๏ผ BSD)์ด ํ์์ธ๊ฐ?
- 3D-prior off โ ๋ค์ค ์ผ๊ตดยทํ๋ค๋ฆฌ ๋ฑ ๊ตฌ์กฐ ๋ถ๊ดด.
- VSD๋ง ์ฐ๋ฉด ๋ํ ์ผ์ ์ป์ง๋ง ๋ทฐ-๋๋ฆฌํํธ, SDS๋ง ์ฐ๋ฉด ๊ณผ๋ธ๋ฌ.
- BSD 2-round๊ฐ ๋ ๋ฌธ์ ๋ฅผ ๋ชจ๋ ์ค์ด๋ฉฐ, ์ต์ข ์ ์ผ๋ก โ๊ธฐํยทํ ์ค์ฒ ์ํธ ๋ถ์คํธโ๋ฅผ ๋ฌ์ฑ.
์ ์ ์์ฝ: โ๊ณ์ธต์ (geometry โ texture) + ๋์ BSDโ ์กฐํฉ์ด ๊ธฐ์กด ๋จ์ผ-์คํ ์ด์งยท๊ณ ์ ํ๋ผ์ด์ด ๋ฐฉ์ ๋๋น ๊ตฌ์กฐ์ ยท๊ฐ์ฑ์ ํ์ง์ ๋์์ ๋์ด์ฌ๋ฆฐ ๊ทผ๋ณธ ์ด์ ๋ค.
ํ๋กฌํํธ 1.3.1 (์๊ณ ๋ฆฌ์ฆ ๋จ๊ณ๋ณ ์ค๋ช )
"ํต์ฌ ์๊ณ ๋ฆฌ์ฆ, ๋ชจ๋ธ ์ํคํ
์ฒ, ๋๋ ์ฃผ์ ๋ฐฉ๋ฒ๋ก ์ ๋จ๊ณ๋ณ(step-by-step)๋ก ์ค๋ช
ํด ์ค. ๋
์๋ AI ๋ถ์ผ์ ๋ํ์์ ์์ค์ด๋ผ๊ณ ๊ฐ์ ํด. ํนํ, ๊ฐ๋จํ ๋ฌธ์ฅ, 3x3 ํฝ์
์ด๋ฏธ์ง, ์์ ์ํ ๊ณต๊ฐ(state space) ๋ฑ ์์ฃผ ๊ฐ๋จํ๊ณ ๊ตฌ์ฒด์ ์ธ ์์(toy example)์ ์ํ ์
๋ ฅ์ ๋ง๋ค์ด์, ์ด ์์๋ฅผ ํตํด ๊ฐ ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ฉฐ ์
๋ ฅ์ด ์ต์ข
์ถ๋ ฅ์ผ๋ก ์ด๋ป๊ฒ ๋ณํ๋๋์ง ์ ์ฒด ๊ณผ์ ์ ๋ณด์ฌ์ค. ๋ฑ์ฅํ๋ ๋ชจ๋ ํต์ฌ ์ฉ์ด์ ๋ณ์๋ ๊ทธ ์ฆ์ ์ ์ํด ์ค."
๐ฉ TL;DR โ DreamCraft3D ์๊ณ ๋ฆฌ์ฆ ํ๋์ ๋ณด๊ธฐ
2-Stage ํ์ดํ๋ผ์ธ
- Geometry Sculpting : 2D SDS (DeepFloyd IF) ๏ผ 3D-aware SDS (Zero-1-to-3) ํผํฉ โ ๊ธฐํ(ๅฝข) ์ผ๊ด์ฑ ํ๋ณด.
- Texture Boosting : ๊ณ ์ ๋ ๊ธฐํ์ ๋ํด Bootstrapped Score Distillation (BSD) ๋ฃจํ๋ฅผ ๋๋ ค DreamBooth ํ๋ผ์ด์ด๋ฅผ ์ ์ง์ ์ผ๋ก ์งํ์์ผ ๊ณ ํด์๋ยท์์ ์ผ๊ด ํ ์ค์ฒ ์์ฑ. ์ด ๊ณ์ธต์ ํ๋ฆ์ด โJanus ๋ฌธ์ (๋ค์ค ์ผ๊ตด) โ 77 %, LPIPS โ 0.08โ ๊ฐ์ ๊ฐ์ ์ ๋ง๋ ๋ค.
1. ํต์ฌ ์ฉ์ด & ๊ธฐํธ ์ ์ (๋์ฌ ๋ ์ฆ์ ์ ์)
๊ธฐํธ/์ฉ์ด | ์๋ฏธ |
---|---|
ฮธ | 3D ์ฅ๋ฉด ํํ(NeRF โ DMTet mesh) ํ๋ผ๋ฏธํฐ |
g(ฮธ; c) | ์นด๋ฉ๋ผ c ์์ ฮธ ๋ฅผ ๋ ๋๋งํ 2D ์ด๋ฏธ์ง |
xฬ | ํ ์คํธ ํ๋กฌํํธ๋ก ์ป์ ์ฐธ์กฐ 2D ์ด๋ฏธ์ง |
LSDS | Score-Distillation Sampling(2D) ์์ค |
L3D-SDS | Zero-1-to-3 ๋ทฐ ์กฐ๊ฑด diffusion์ด ์ฃผ๋ 3D prior ์์ค |
LBSD | Boot-strapped Score Distillation ์์ค |
ฯตฯ, ฯตlora | ๊ฐ๊ฐ 2D diffusion, DreamBooth-LoRA ๊ฐ ์์ธกํ ๋ ธ์ด์ฆ |
2. ์ ์ฒด ํ์ดํ๋ผ์ธ ๋จ๊ณ๋ณ ํ๋ฆ
TOY SETTING
- ์ํ ๊ณต๊ฐ: 3ร3 ํฝ์ ํ๋ฐฑ(0โ9)
- ๋ชฉํ: โ๐ฅ ์ ์ก๋ฉด์ฒด(cube)โ์ ํด๋นํ๋ 1์ฅ์ง๋ฆฌ ์ฐธ์กฐ ์ด๋ฏธ์ง๋ฅผ 360ยฐ ์ผ๊ด 3D ์ค๋ธ์ ํธ๋ก ๋ณต์.
Step 0 โ ์ฐธ์กฐ 2D ์ด๋ฏธ์ง ์์ฑ
2 2 2
2 9 2 โ xฬ (์ ๋ฉด 3ร3 ํ๋ธ๊ฐ๋ก์ค)
2 2 2
*DeepFloyd IF(2D diffusion)*๋ก๋ถํฐ ์ํ๋ง. (์ค์ ๋ ผ๋ฌธ์ 1024ยฒ ํด์๋ ์ฌ์ฉ)
Step 1 โ Geometry Sculpting (ํํ ์ก๊ธฐ)
์ฐ์ฐ ์ค๋ช | TOY ๋ณํ ์์ | |
---|---|---|
1-A | ์ด๊น๊ฐ ฮธโ โ ๊ท ์ผ SDF (๋ชจ๋๋๋ฏธ). | 0 ๊ฐ์ผ๋ก ์ฑ์์ง 3ร3ร3 voxel ๊ฒฉ์. |
1-B | ๋๋ค ์นด๋ฉ๋ผ cโ ์ ํ โ g(ฮธโ;cโ) ๋ ๋ โ LSDS ๊ทธ๋๋์ธํธ ๊ณ์ฐ. | ์ ๊ฒฉ์๋ฅผ ์ ๋ฉด(0ยฐ) ํฌ์ โ ๋น 3ร3 ์ด๋ฏธ์ง. |
1-C | Zero-1-to-3 ๋ก ๋์ผ ๋ทฐ์์ ์์ธก๋ ๊น์ดยท๋ ธ๋ฉ๊ณผ L3D-SDS๋ฅผ ํผํฉํด ์ ๋ฐ์ดํธ. | ๊น์ด ์ค์ฐจ โ โ ์ยทํยท์ขยท์ฐ voxel ๊ฐ์ด +1 ์ฆ๊ฐ. |
1-D | Progressive-View Schedule: ์์ผ๊ฐ 0ยฐโ45ยฐโ90ยฐ ์์ผ๋ก ํ๋. | ๊ฐ ๋ทฐ์์ ๊ท ๋ฑํ๊ฒ ๋ฐ๋ ๋ณด์ . |
1-E | Timestep Annealing (t 0.8โ0.3) ๋ก coarseโfine ์ธ๋ถํ. | ๊ฐ์ด๋ฐ ๋ฉด๋ง +1 โ ๋ณต์ ๋ด๋ถ๊ฐ ์ฑ์์ง. |
1-F | ฮธ โ DMTet mesh ๋ณํ(๊ณ ์ฃผํ ์ธ๋ถ). | 8 ๊ฐ์ ์ฝ๋ ์ ์ + ๋ฉด ์ ์. |
๊ฒฐ๊ณผ ฮธ_geo
9 9 9 (๊ฒ๋ฉด)
9 0 9 (์ ๋น์ด์์ : ํ๋ธ)
9 9 9
์ค์ ์ฐ๊ตฌ์์ Janus ๋น๋ 77 % โ ๋ 2D+3D hybrid loss ๋๋ถ.
Step 2 โ Texture Boosting (BSD ๋ฃจํ, ๋ํ ์ผ ์ฑ์ฐ๊ธฐ)
Round | ์์ | TOY ํ ์ค์ฒ(ํฝ์ ๊ฐ) ๋ณํ |
---|---|---|
R-0 | ฮธ_geo ๊ณ ์ , render โ 9 ์ฅ์ ์์ ๋ณ ์ด๋ฏธ์ง {Iแตข}. ๊ฐ Iแตข ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ ์ถ๊ฐ. | ๊ฐ ๋ฒ์ 2โ9 โ 1โ9 ๋ก ๋ ธ์ด์ฆ ํ์ฅ. |
R-1 | DreamBooth finetune: Iแตข ๋ก LoRA ฯตlora ํ์ต โ 3D ์ธ์ง ํ๋ผ์ด์ด ์ป์. | ํ๋ผ์ด์ด๊ฐ cube ๋ชจ์ ํ์ต. |
R-2 | LBSD = โฯตฯ โ ฯตloraโยฒ ๊ทธ๋ผ๋๋ก ฮธ_tex ์ ๋ฐ์ดํธ โ ๋ ๋ ์ฌ์์ฑ. | ๋ชจ์๋ฆฌโ(ํฝ์ 9) ๊ฐ์กฐ, ๋ฉด(6) ๊ท ์ผ. |
R-3 | ์ ๋ ๋๋ค๋ก DreamBooth ์ฌํ์ต โฆ (2 round ๋ฐ๋ณต). | ์์ยทํ์ด๋ผ์ดํธ ์ธ๋ถ ๊ฐ 7โ9 ์ ๊ต. |
์ต์ข ์ถ๋ ฅ ฮธ* โ 360ยฐ ๋ชจ๋ ๋ทฐ์์ ๋์ผ ํ ์ค์ฒ ํ๋ธ ์์ฑ.
3. ํ๋ฆ ์์ฝ (์ซ์๋ก ๋ณด๋ ํจ๊ณผ)
์งํ | DreamFusion | DreamCraft3D |
---|---|---|
Janus Rate โ | baseline | -77 % |
LPIPS(โ) | 0.13 | 0.05 |
PSNR(dB โ) | 22.6 | 31.8 |
4. ์ง๊ด์ ์ดํด ํฌ์ธํธ โ๏ธ
- Shape-First, Texture-Later : ๋ ๋ชฉํ๋ฅผ ๋ถ๋ฆฌํด ํ์ต ์์ ์ฑ ํ๋ณด.
- Bootstrapped Prior : 3D ๋ชจ๋ธ๊ณผ 2D ํ๋ผ์ด์ด๊ฐ ๊ต๋๋ก ์๋ก๋ฅผ ๊ฐ์ .
- Hybrid Loss : 2D ํ ์ค์ฒ ์ธ๋ฐ๋ ๏ผ 3D ์ผ๊ด์ฑ ๊ท ํ ์กฐ์ ์ด ํต์ฌ.
ํ๋กฌํํธ 1.3.2 (‘๋น๋ฐ ๋ณ๊ธฐ’ ์๋ณ)
"์ด ๋
ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ฐ์ฅ ๊ฒฐ์ ์ ์ธ ๋จ์ผ ์ํ ๊ณต์, ์๊ณ ๋ฆฌ์ฆ ๋จ๊ณ, ๋๋ ์ํคํ
์ฒ ๊ตฌ์ฑ์์๋ฅผ ์๋ณํด ์ค. ๊ทธ๊ฒ์ ๊ธฐ๋ฅ๊ณผ, ๊ทธ๊ฒ์ด ์ด ๋ฐฉ๋ฒ๋ก ์ ์ฑ๊ณต์ ์ ํ์์ ์ธ์ง ์ค๋ช
ํด ์ค."
๐ โ๋น๋ฐ ๋ณ๊ธฐโ โ Bootstrapped Score Distillation (BSD) Loss
LBSD gradient:
$$ \nabla_{\theta} L_{\text{BSD}} = ; \mathbb{E}{t,;\epsilon,;c} \Bigl[ \omega(t),\bigl( \underbrace{\epsilon{\text{DreamBooth}}!(x_t;,y,t,c)}{\substack{\text{์งํํ๋ 3D-์ธ์ \ ํ๋ผ์ด์ด ๋ ธ์ด์ฆ ์์ธก}} ;-; \underbrace{\epsilon{\phi}!(x_t;,t,c)}_{\substack{\text{LoRA ๋ ธ์ด์ฆ ์์ธก}}} \bigr) \frac{\partial g(\theta,c)}{\partial \theta} \Bigr] ] :contentReference[oaicite:0]{index=0}
$$
๊ธฐํธ | ์ ์ |
---|---|
ฮธโ: 3D ์ฅ๋ฉด(๋ฉ์/NeRF) ํ๋ผ๋ฏธํฐ โข g(ฮธ,c)โ: ์นด๋ฉ๋ผ c์์ ฮธ๋ฅผ ๋ ๋๋งํ 2D ์ด๋ฏธ์ง | |
xtโ: ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ ๋ ๋๋ง โข ฯ(t)โ: DDPM ๊ฐ์ค์น | |
ฮตDreamBoothโ: ํ ๋จ๊ณ ๋ ๋๋ง์ผ๋ก ์ฌํ์ตํ DreamBooth ๋ชจ๋ธ์ ๋ ธ์ด์ฆ ์์ธก | |
ฮตฯโ: LoRA๋ก ๋ณด์ ๋ ๊ณ ์ ์์ธก๊ธฐ |
โจ ์ด๋ป๊ฒ ์๋ํ๋?
- ๋ฉํฐ๋ทฐ ๋ ๋๋ง โ DreamBooth ์ฌํ์ธํ๋ (Algorithm 1 5-6ํ) โ ํ์ฌ 3D ๊ฒฐ๊ณผ๋ฅผ ๋ ธ์ด์ฆ ์ฆ๊ฐํ์ฌ *โ๊ฐ์ง ๊ณ ํด์๋ ๋ฐ์ดํฐ์ โ*์ ๋ง๋ค๊ณ , ์ด๋ฅผ ์กฐ๊ฑด๋ถ(์นด๋ฉ๋ผ c) DreamBooth๋ก ํ์ต.
- LBSD๋ก 3D ์ ๋ฐ์ดํธ โ ์ ์์ด โ์๋ก ์งํํ DreamBooth ์ค์ฝ์ด vs LoRA ์ค์ฝ์ดโ ์ฐจ์ด๋ฅผ ์ด์ฉํด ฮธ๋ฅผ ๋ค์ ์ต์ ํ.
- ๊ต๋(loop) 2 ํ ๋ฐ๋ณต โ DreamBooth์ 3D ๋ชจ๋ธ์ด ์ํธ ๋ถ์คํธ๋๋ฉฐ ๊ณ ์ฃผํ ํ ์ค์ฒ & 360ยฐ ์ผ๊ด์ฑ์ ๋์์ ํฅ์.
๐ ์ DreamCraft3D ์ฑ๊ณต์ ํ์์ธ๊ฐ?
๋น๊ต | Janus ๋ฐ์๋ฅ โ | LPIPS (โ) | PSNR (dB โ) |
---|---|---|---|
SDS ๋ง | ๊ธฐ์ค์ | 0.13 | 22.6 |
VSD | โ ์ผ๋ถ | 0.08 | 24.9 |
2-round BSD | -77 % | 0.005 | 31.8 |
- ๋์ ํ๋ผ์ด์ด ๋๋ถ์ 3D-aware ํ ์ค์ฒ ๊ทธ๋๋์ธํธ๊ฐ ๋จ๊ณ๋ง๋ค ์ ๋ฐํด์ง๊ณ , ๋ทฐ ๋๋ฆฌํํธ๊ฐ ์ฌ๋ผ์ง๋ค.
- ๊ณ ์ ํ๋ผ์ด์ด(VSDยทSDS)๋ก๋ ์ป๊ธฐ ์ด๋ ค์ ๋ โ๊ณ ํด์๋ + ์ ๋ฐฉ์ ์ผ๊ด์ฑโ ๋ ๋ง๋ฆฌ ํ ๋ผ๋ฅผ ํ๋์ ์์ค๋ก ์ก๋๋ค.
- ์ญ์ ์คํ์์ BSD๋ฅผ ๋๋ฉด ํ ์ค์ฒ ์ ๋ช โโ์ด๋ ๋ทฐ ์ผ๊ด์ฑโโ ๋๋ ๋ง๊ฐ ์ฌ๋ฐํ๋ค (๋ ผ๋ฌธ Fig. 6).
๐ง๐ปโ๐ป ์์ฝ ํ ์ค
LBSD๋ โ๋ ๋ โ DreamBooth ์งํ โ ๋ค์ ๋ ๋โ๋ผ๋ ์๊ธฐ๋ถํ ๋ฃจํ์ ์ํ์ ํต์ฌ์ผ๋ก, 2D ํ ์ค์ฒ ์ ๋ช ๋์ 3D ์์ ์ผ๊ด์ฑ์ ๋์์ ๋์ด์ฌ๋ฆฌ๋ ๊ฒฐ์ ์ ์์ค ํจ์๋ค.
ํ๋กฌํํธ 1.4.1 (ํต์ฌ ๊ฒฐ๊ณผ ๋ถ์)
"'Experiments' ๋๋ 'Results' ์น์
์ ํ์ ๊ทธ๋ฆผ์ ํฌํจํ ์ฃผ์ ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํด ์ค. ์ฌ์ฉ๋ ํต์ฌ ์ฑ๋ฅ ์งํ(performance metrics)๋ ๋ฌด์์ธ๊ฐ? ์ด๋ค ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์์ ๊ฒฐ๊ณผ๊ฐ ๋ณด๊ณ ๋์๋๊ฐ? ์ ์๋ค์ด ์์ ๋ค์ ๋ฐฉ๋ฒ๋ก ์ ์ฑ๊ณต ์ฆ๊ฑฐ๋ก ๊ฐ์ฅ ๊ฐ์กฐํ๋ ์ฃผ์ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํด ์ค."
๐ ๊ฒฐ๋ก ๋จผ์ (TL;DR)
- ํ๊ฐ ์งํ: CLIP(โ), Contextual Distance (โ), PSNR (dB โ), LPIPS (โ)์ ๋ค ๊ฐ์ง๋ก ์๋งจํฑ ์ ํฉยทํฝ์ ์ ์ฌยท๊ณ ์ฃผํ ๋ณด์กด์ ๋ชจ๋ ์ธก์ .
- ๋ฒค์น๋งํฌ: ์ ์๋ค์ด ๊ตฌ์ถํ 300-์ฅ 2Dโ3D ์ ํ ํ ์คํธ์ โ์ค์ฌ์ง + Stable-Diffusion/DeepFloyd ์์ฑ ์ด๋ฏธ์ง๋ฅผ 1:1 ํผํฉํ๊ณ , ์ํยท๊น์ดยทํ๋กฌํํธ๋ฅผ ํจ๊ป ์ ๊ณต.
- ์ฃผ์ ์ฑ๊ณผ: DreamCraft3D๊ฐ 5๊ฐ SoTA(DreamFusionยทMagic3DยทProlificDreamerยทMake-it-3DยทMagic123) ์ ์งํ์์ 1์๋ฅผ ๊ธฐ๋ก; ํนํ LPIPS 0.005, PSNR 31.8 dB๋ก ์ง๊ฐ ์ ๋ช ๋ ร ์์ ์ผ๊ด์ฑ ๋ชจ๋ ํฌ๊ฒ ๊ฐ์ .
- ์ฌ์ฉ์ ์ฐ๊ตฌ: 32๋ช ยท480ํ ์ค **92 %**๊ฐ DreamCraft3D๋ฅผ ๊ฐ์ฅ ์ ํธ, ์ค์ ์๊ฐ์ ํ์ง์์๋ ์ฐ์ ์ ์ฆ.
- ์ญ์ ์คํ(Fig. 6): 3D-prior ์ ๊ฑฐ ์ Janus ๊ธ์ฆ, BSD 2-round ๋์ ์ ํ ์ค์ฒ ์ผ๊ด์ฑยท๋ํ ์ผ์ด ๋์์ ํฅ์โBSD๊ฐ ํต์ฌ ๊ธฐ์ฌ์์ ๊ฒ์ฆ.
1. ์ฌ์ฉ๋ ํต์ฌ ์ฑ๋ฅ ์งํ
์งํ | ๋ป | DreamCraft3D ์ฑ๋ฅ | ๊ฐ์ ํญ(์ฃผ์ Baseline ๋๋น) | |
---|---|---|---|---|
CLIP โ | ํ ์คํธโ์ด๋ฏธ์ง ์๋งจํฑ ์ ์ฌ | 0.896 | +0.024 vs Make-it-3D | |
Contextual โ | ํฝ์ -๋ ๋ฒจ ๊ตฌ์กฐ ์ ์ฌ | 1.579 | โ0.030 vs Magic123 | |
PSNR (dB โ) | ๊ณ ์ฃผํยท๋ ธ์ด์ฆ ๋ณด์กด | 31.801 dB | +8.96 dB vs Magic3D | |
LPIPS โ | ์ง๊ฐ์ ๊ฑฐ๋ฆฌ, ์์์๋ก ์ ๋ช | 0.005 | 10ร โ vs DreamFusion |
ํด์: CLIPยทContextual๋ก ์๋งจํฑยท๊ตฌ์กฐ ์ ํฉ์ฑ, PSNRยทLPIPS๋ก ํ ์ค์ฒ ํ์ง์ ๋์ ํ๊ฐํด โ360ยฐ ์ผ๊ด & ์ฌ์ง๊ธ ๋ํ ์ผโ์ ๊ฐ๊ดํ.
2. ํ๊ฐ์ฉ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
- ๊ท๋ชจ/๊ตฌ์ฑ: ์ด 300์ฅ์ RGB-A ์ด๋ฏธ์ง
- ์ถ์ฒ: ์ค์ฌ์ง + Stable-DiffusionยทDeepFloyd IF ์์ฑ ์ด๋ฏธ์ง
- ๋ถ๊ฐ์ ๋ณด: ์ํ ๋ง์คํฌ, MiDaS ๊น์ด, ํ๋กฌํํธ ์บก์ ํฌํจ โ 3D-aware ์ ๋ ํ๊ฐ ๊ฐ๋ฅ.
- ๊ณต๊ฐ ๊ณํ: ๋ ผ๋ฌธ๊ณผ ํจ๊ป ๋ฐฐํฌ ์์ .
3. ์ ๋ ๋น๊ต (Table 1 ํ์ด๋ผ์ดํธ)
๋ฐฉ๋ฒ | CLIP โ | Contextual โ | PSNR โ | LPIPS โ | |
---|---|---|---|---|---|
DreamFusion | 0.831 | 1.648 | 22.6 | 0.130 | |
Magic3D | 0.858 | 1.617 | 22.8 | 0.053 | |
ProlificD. | 0.870 | 1.612 | 24.9 | 0.042 | |
Make-it-3D | 0.872 | 1.609 | 18.9 | 0.054 | |
Magic123 | 0.843 | 1.628 | 22.8 | 0.053 | |
DreamCraft3D | 0.896 | 1.579 | 31.8 | 0.005 |
ํฌ์ธํธ: DreamCraft3D๋ **Janus ์ต์ (๊ตฌ์กฐ)**์ ๊ณ ํด์๋ ํ ์ค์ฒ๋ฅผ ๋ชจ๋ ์ก์๋ธ ์ฒซ ๋ชจ๋ธโLPIPS๊ฐ 10๋ฐฐโ์ด๋ฉด์๋ PSNR์ด 9 dBโ.
4. ์ ์ฑยท์ฌ์ฉ์ ์ฐ๊ตฌ
- Qualitative(Fig. 3): ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ๋ท๋ฉดยท์ธก๋ฉด์์ ํ๋ค๋ฆฌ ์๊ณกยท๋ธ๋ฌ, DreamCraft3D๋ 360ยฐ ์ ์ง.
- User Study(Fig. 5): 15 ์ ํ๋กฌํํธยท์ด๋ฏธ์ง, 92 % ์ ํ๋ฅ ๋ก โ๊ฐ์ฅ ์์ฐยท์ผ๊ดโํ๋ค๊ณ ์๋ต.
5. Ablation Study (Fig. 6)
๊ตฌ์ฑ | Janusยท๊ธฐํ | ํ ์ค์ฒ ๋ํ ์ผ | ํ ์ค์ฒ ์ผ๊ด |
---|---|---|---|
w/o 3D-prior | โ ๊ตฌ์กฐ ํ์ | - | - |
SDS | โ | โ ๋ธ๋ฌยท๊ณผํฌํ | โ |
VSD | โณ | โ ๋ ์นด๋ก์ | โ ๋ถ์ผ์น |
BSD 1-round | โ | โ | โณ |
BSD 2-round | โ | โ | โ |
๊ฒฐ๋ก : โ 3D-aware prior๊ฐ ๊ตฌ์กฐ ์์ ์ฑ์ ํ์, โก 2-round BSD๊ฐ ํ ์ค์ฒ ์ ๋ช ๋์ ๋ค์ค ์์ ์ผ๊ด์ฑ์ ๋์์ ๋์ด์ฌ๋ฆฌ๋ ์ด์ .
๐ ์ ์๊ฐ ๊ฐ์กฐํ๋ ์ฑ๊ณต ์ฆ๊ฑฐ ์์ฝ
- ์ ์งํ 1์โํนํ LPIPS 0.005๋ก ์ด์ ์ต๊ณ ์น ๋๋น ํ ์๋ฆฟ์๋ก ๊ฐ์.
- ์ฌ์ฉ์ ์ ํธ 92 %โ๊ฐ๊ด์ ยท์ฃผ๊ด์ ํ์ง ๋ชจ๋ ์ ์ฆ.
- ์ญ์ ์คํ์ผ๋ก โ3D-prior + BSDโ ์ค์์ฑ ์ค์ฆ โ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ์ฌ์ ํ์์ฑ ํ์ธ.
DreamCraft3D๋ thus **โ๊ธฐํ-ํ ์ค์ฒ ๋๋ ๋งโ**๋ฅผ ์์ธก์์ ํฌ๊ฒ ์ ์ง์ํจ SoTA๋ก ์๋ฆฌ๋งค๊นํ๋ค.
ํ๋กฌํํธ 1.4.2 (๋นํ์ ๋น๊ต)
"์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ๋
ผ๋ฌธ์์ ์ธ๊ธ๋ ์ฃผ์ ๋ฒ ์ด์ค๋ผ์ธ ๋ฐ SOTA(State-of-the-Art) ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ์ด๋ค ์ฑ๋ฅ์ ๋ณด์ด๋๊ฐ? ์ ์๋ค์ ์ฐ์์ฑ ์ฃผ์ฅ์ ๊ฐ์ฅ ๊ฐ๋ ฅํ๊ฒ ๋ท๋ฐ์นจํ๋ ํน์ ๊ฒฐ๊ณผ๋ ๋น๊ต ์ง์ ์ ์๋ณํด ์ค. ๋ฐ๋๋ก, ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ด ๊ฒฝ์ ๋ชจ๋ธ์ ๋ฅ๊ฐํ์ง ๋ชปํ๊ฑฐ๋ ๊ฐ์ ํจ๊ณผ๊ฐ ๋ฏธ๋ฏธํ๋ ๊ฒฐ๊ณผ๋ ์๋์ง ์ฐพ์๋ด. ๋ง์ฝ ์๋ค๋ฉด, ์ ์๋ค์ ์ด๋ฌํ ๊ฒฝ์ฐ์ ๋ํด ์ด๋ค ์ด์ ๋ฅผ ์ ์ํ๋๊ฐ?"
ํ์ค ๊ฒฐ๋ก (Compressed take-away)
DreamCraft3D๋ ๋ชจ๋ ํต์ฌ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด SOTA๋ฅผ ์๋ํ๋คโํนํ ํ ์ค์ฒ ํ์ง(LPIPS 90 % โ)๊ณผ ์ ์ฒด 3D ์ ํฉ์ฑ(PSNR +13 dB)์์ ๊ฐ์ฅ ํฐ ๊ฒฉ์ฐจ๋ฅผ ๋ณด์ด๋ฉฐ, ์ฌ์ฉ์ ์ ํธ๋์์๋ 92 %์ ์๋์ ์ ํ์ ๋ฐ๋๋ค. ๊ทธ๋ฌ๋ CLIP ์ ์ฌ๋ ํฅ์ํญ์ ์๋์ ์ผ๋ก ์๊ณ , ์ผ๋ถ ๋น๊ฐ์ฒดยท๋ณต์ก ํ์(์: ์ฝ๋ผ๋ฆฌ ์ฝ)์๋ ์ฌ์ ํ ์คํจ ์ฌ๋ก๊ฐ ์กด์ฌํ๋ค.
1. ์ ๋ ๋น๊ต โ ์ฃผ์ SOTA / ๋ฒ ์ด์ค๋ผ์ธ๊ณผ์ ์ฑ๋ฅ ๊ฒฉ์ฐจ
ํ๊ฐ ์ : ์ ์๋ค์ด ๊ณต๊ฐ ์์ ์ธ 300 ์ฅ ํผํฉ ์ด๋ฏธ์ง ๋ฒค์น๋งํฌ ์งํ : CLIP โ, Contextual Distance โ, PSNR โ, LPIPS โ (ํ ์ค์ฒ perceptual distance)
๋ชจ๋ธ | CLIP โ | Contextual โ | PSNR โ [dB] | LPIPS โ | ์ฃผ๊ด์ ์ ํธ๋ (%) |
---|---|---|---|---|---|
DreamCraft3D | 0.896 | 1.579 | 31.80 | 0.005 | 92 |
Make-it-3D | 0.872 | 1.609 | 18.94 | 0.054 | โ |
Magic123 | 0.843 | 1.628 | 22.84 | 0.053 | โ |
์งํ ์ถ์ฒ / ์ฌ์ฉ์ ์ฐ๊ตฌ |
๊ฐ์ ํญ (์ฃผ์ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น)
- LPIPS โ 90 % (0.054 โ 0.005) โ ๊ณ ์ฃผํ ํ ์ค์ฒ ์ ๋ช ๋ยท์ฌ์ค๊ฐ์์ ๊ฐ์ฅ ๋๋๋ฌ์ง ์ด๋
- PSNR +12.9 dB โ ์ฐธ์กฐ ์์ ํ์ง ๋ํญ ํฅ์
- Contextual Distance โ1.9 %, CLIP +0.024 โ ์๋งจํฑ ์ ํฉ์ฑ์ ์ํญ ์ด๋
- ์ฌ์ฉ์ ํ ์คํธ : 32 ๋ช ยท480 ์๋ต ์ค 92 %๊ฐ DreamCraft3D ์ ํธ
2. ์ ์๋ค์ด ์ ์ํ โ์ฐ์์ฑโ์ ๊ฐ์ฅ ์ ๋ท๋ฐ์นจํ๋ ๊ฒฐ๊ณผ
- ํ ์ค์ฒ ํ์ง : LPIPS 0.005โ๊ธฐ์กด ์ต๊ณ ๋๋น 10ร ๋ฎ์ โ ์ธ๋ฐ ํ ์ค์ฒ์ ๋ณด์กด
- ์ ๋ฐ์ 3D ์ ํฉ์ฑ : PSNR 31.8 dBโMake-it-3D ๋๋น +13 dB, Janus ์ํฐํฉํธ๊ฐ ์๊ฐ์ ์ผ๋ก ์ฌ๋ผ์ง (Figure 3)
- ์ฌ์ฉ์ ์ ํธ : ์คํ ์ฐธ๊ฐ์ 92 % ์ ํโํ์ค์ ํ์ง ๋ฐ ์ผ๊ด์ฑ์ ์ธ๊ฐ์ด ์ฒด๊ฐ
3. ํ๊ณ ๋๋ ๊ฐ์ ํญ์ด ์์๋ ๋ถ๋ถ
ํญ๋ชฉ | ๊ด์ฐฐ | ์ ์ ํด์ยท์์ธ |
---|---|---|
CLIP ์ ์ | 0.896 (โ 3 %)๋ก ์ด๋ฏธ ํฌํ๋ ์งํ๋ผ ๊ฒฉ์ฐจ๊ฐ ์์ | โ์๋งจํฑ ๋งค์นญ์ ์์๊ถ ๋ชจ๋ธ ๋ชจ๋ ๋์ ํธ์ด๋ผ ๊ทน์ ์ธ ์ฌ์ ๊ฐ ์ ๋คโโ๋ช ์์ ์ธ๊ธ ์์ (์๋ฌต์ ) |
Contextual Distance | 1.579 (โ 2 %) : ๊ฐ์ ํญ ์ ํ์ | โํฝ์ -๋ ๋ฒจ ์์ ์ผ์น๋ณด๋ค ์ ์ญ ๊ตฌ์กฐยท์ง๊ฐ์ ์ง์คโ |
ํน์ ํ์ ์คํจ | ์ฝ๋ผ๋ฆฌ ์ฝ ๋ฑ ๋น๊ฐ์ฒดยท๋ณต์ก ๊ธฐํ์์ ์ค๋ธ์ ํธ ๋ณํ (Figure 9) | ๊น์ด ์ ๋น๊ท์ดํฐ์ ๋จ์ผ ๋ ํผ๋ฐ์ค ๋ทฐ์ ์ ํโ๊น์ด priors ์ค์ฐจ ๋ฐ ์ฌ์งยท์กฐ๋ช ๋ถ๋ฆฌ ๋ถ์ฌ |
4. ์์ฝ ๋ฐ ๋นํ์ ์๊ฐ
- ํ ๋ฐฉ์ ๊ฐ๋๋ค : DreamCraft3D์ ๊ฐ์ฅ ํฐ ๊ธฐ์ฌ๋ Bootstrapped Score Distillation(BSD) + Zero-1-to-3 3D prior์ 2-์คํ ์ด์ง ํ์ด๋ธ๋ฆฌ๋. ์ด๊ฒ์ด ํ ์ค์ฒยท์ ํฉ์ฑ ๋์ ๊ฐ์ ์ โ๋น๋ฐ ๋ณ๊ธฐโ๋ก ์๋ํ๋ฉฐ, ์์นยท์ฃผ๊ด์ ํ ์คํธ ๋ชจ๋ ๋์กฐ๊ตฐ์ ๋๋ํ ์ด๊ธด๋ค.
- ๊ทธ๋ฌ๋ CLIPยทContext ์งํ์ ๊ฐ์ด ์ด๋ฏธ ์์๊ถ์ด ๋๋์์ดํ ์์ญ์์๋ โ์๋์ โ๊น์ง๋ ์๋๋ค. ๋ํ ๊น์ด ์ ๋งค์ฑ์ด ํฐ ๋น๊ฐ์ฒดยท๋ณตํฉ ๊ตฌ์กฐ๋ ์ฌ์ ํ ํด๊ฒฐ ๊ณผ์ ๋ก ๋จ์ ์๋ค.
- ์ดํ : โ์ฌ์ง๊ธ ํ ์ค์ฒ + ์ ๋ฐฉ์ ์ผ๊ด์ฑโ ์ด๋ผ๋ ์๋ฆฝํ๊ธฐ ์ด๋ ค์ด ๋ ๋ชฉํ๋ฅผ ๋์์ ๋ฌ์ฑํ ์ต์ด์ ๊ณต๊ฐ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ํ๊ฐํ ์ ์๋ค. ํ์ง๋ง ํ์ ์ฐ๊ตฌ์์๋ ๋ค์ค ์ฐธ์กฐ ๋ทฐ ์ถ๊ฐ๋ ์ฌ์งยท๋ผ์ดํ ๋ถ๋ฆฌ ๋ฑ์ผ๋ก ์์ฌ ์คํจ ์ผ์ด์ค๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ด ์๊ตฌ๋๋ค.
ํ๋กฌํํธ 1.5.1 (์ธ๊ธ๋ ํ๊ณ์ ์ ์ฌ์ ํ๊ณ)
"์ ์๋ค์ด ๋
ผ๋ฌธ์์ ๋ช
์์ ์ผ๋ก ์ธ์ ํ ํ๊ณ์ , ์ฝ์ , ๋๋ ์คํจ ์ฌ๋ก(failure modes)๋ ๋ฌด์์ธ๊ฐ? ๋ค์์ผ๋ก, ๋ฐฉ๋ฒ๋ก ๊ณผ ๊ฒฐ๊ณผ์ ๋ํ ๋น์ ์ ๋ถ์์ ๋ฐํ์ผ๋ก, ์ ์๋ค์ด ์ธ๊ธํ์ง ์์์ ์ ์๋ ์ ์ฌ์ ์ธ ํ๊ณ๋ ์ฝ์ ์ ๋ฌด์์ด๋ผ๊ณ ์๊ฐํ๋๊ฐ? (์: ๊ฐ๋ ฅํ ๊ฐ์ ์ ๋ํ ์์กด์ฑ, ํ์ฅ์ฑ ๋ฌธ์ , ๋์ ์ฐ์ฐ ๋น์ฉ, ์ผ๋ฐํ์ ํ๊ณ, ์ ์ฌ์ ์ธ ๋ถ์ ์ ์ฌํ ์ํฅ ๋ฑ)"
๐ ํ๋์ ๋ณด๋ ๊ฒฐ๋ก (TL;DR)
DreamCraft3D๊ฐ ํ ์ค์ฒ ์ ๋ช ๋ยท360ยฐ ์ผ๊ด์ฑ์์ SoTA๋ฅผ ๋ฌ์ฑํ์ง๋ง, ์ ์๋ค์ด ์ธ์ ํ ์ฝ์ ์ (1) ๋จ์ผ ์์ ๊ธฐ๋ฐ ๊น์ด ๋ชจํธ์ฑ๊ณผ (2) ์กฐ๋ช ยท์ฌ์ง ๋ถ๋ฆฌ ์คํจ๋ค . ์ถ๊ฐ๋ก ๋ถ์ํด ๋ณด๋ฉด ๊ณ ๋น์ฉยท์ ํ์ฅ์ฑ, ์ฌ์กฐ๋ช โง์ ๋๋ฉ์ด์ ํ๊ณ, ์ ์๊ถยท๋ฅํ์ดํฌ ์ํ ๋ฑ์ด ์ ์ฌ์ ํ๊ณ๋ก ๋๋ฌ๋๋ค.
1. ์ ์๋ค์ด ๋ช ์์ ์ผ๋ก ์ธ๊ธํ ํ๊ณ ๐
๊ตฌ๋ถ | ์ค๋ช | ๊ทผ๊ฑฐ |
---|---|---|
๊น์ด ๋ชจํธ์ฑ | ๋จ์ผ 2D ์ฐธ๊ณ ์ด๋ฏธ์ง์ ์์กดํด **์ ๋ฉด ์ธ๋ถ(์: ์ฝ๋ผ๋ฆฌ ์ฝ)**๊ฐ ์๋ชป๋ 3D ํ์์ผ๋ก ํฌ์๋จ | Fig. 9 failure case, A.3 Limitations |
ํ ์ค์ฒโงํ์ ์ํด | โ์ ๋ฉด ๊ธฐํ๊ฐ ํ ์ค์ฒ์ ๋ค์์ด๋โ ํ์ ๋ฐ์ | ๋์ผ |
์ฌ์งยท์กฐ๋ช ๋ถ๋ฆฌ ์ ๋จ | ๋ฌผ์ฒด ๊ณ ์ ์ฌ์ง๊ณผ ๊ด์์ ๋ถ๋ฆฌํ์ง ์์ ์ฌ์กฐ๋ช /๋๋ฉ์ธ ์ ์ด์ ์ทจ์ฝ | ๋์ผ |
2. ๋ ผ๋ฌธ ๋ฐ์์ ๋๋ฌ๋๋ ์ ์ฌ์ ํ๊ณ ๐
๋ฒ์ฃผ | ์์ธ ๋ด์ฉ | ๋ถ์ ๊ทผ๊ฑฐยท์ฐ๊ฒฐ๊ณ ๋ฆฌ |
---|---|---|
์ฐ์ฐยท๋ฉ๋ชจ๋ฆฌ ๋น์ฉ | โข 2-์คํ
์ด์ง NeRFโDMTet + ๋ ์ฐจ๋ก DreamBooth fine-tuning. โข Instant-NGP ํด์ 384ยณ ๊ฒฉ์, ๋ผ์คํฐ 512ยฒ, 2 round BSD โ ์์ญ GPU ๋ถ ๋จ์ ๊ฐ๋ฅ์ฑ. โข ๋๋ ์์ ์ ์ ์ linearly-scaling per-object ๋น์ฉ. | ๊ตฌํ ํ๋ผ๋ฏธํฐ ๋ฐ DreamBooth 2-round ๋ฃจํ |
๋ฒ์ฉ์ฑ ์ ํ | โข ๋ฐฐ๊ฒฝยท๋ณตํฉ ์ฅ๋ฉด(๋ค์ ๊ฐ์ฒด, occlusion) ๋ฏธํ๊ฐ. โข ๋น๊ฐ์ฒด/๋์ ๊ฐ์ฒด(์ฝ๋ผ๋ฆฌ ์ฝ ์คํจ)์์ ์ทจ์ฝ. | ์คํจ ์ฌ๋ก |
์ฌ์กฐ๋ช ยท๋จธํฐ๋ฆฌ์ผ ์ ์ด ๋ถ๊ฐ | ์์ด๋ฉ์ด ํ ์ค์ฒ์ baked โ VR/๊ฒ์ ์์ง์์ PBR ํ์ดํ๋ผ์ธ๊ณผ ๋ถ์ ํฉ. | ์ฌ์งยท์กฐ๋ช ๋ฏธ๋ถ๋ฆฌ ์ง์ |
ํ์ฅ์ฑ ๋ฌธ์ | DreamBooth๋ฅผ ์ค๋ธ์ ํธ๋ณ ๊ฐ์ธํํด์ผ ํ๋ฏ๋ก, ๋ค์ค ์์ ๋ฐฐ์นยท๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ฑ์๋ ๋ถ์ ํฉ. | BSD ์ค๊ณ์ โscene-specific diffusionโ |
๋ฐ์ดํฐ ํธํฅยท๋ฒ์ ์ด์ | โข 2D ์ด๋ฏธ์ง๋ฅผ ๊ทธ๋๋ก 3D๋ก โ๋ณต์ โํ๋ฏ๋ก ์ ์๊ถ ์นจํด ์์ง. โข ๋๊ตฌ๋ ์ค์ฌ ์ธ๋ฌผยท๋ธ๋๋๋ฅผ 3D๋ก ์ฌํ โ ๋ฅํ์ดํฌยทIP ์ ์ฉ ์ํ. | ๋ฐฉ๋ฒ๋ก ํน์ฑ (2D reference โ 3D lift) |
์ค๋ฆฌยท์ฌํ ์ํฅ | ์ฌ์ค์ 3D ๋ฅํ์ดํฌ๊ฐ VR ยท ARยท๊ฒ์ ๋ชจ๋๋ก ํ์ฐ๋๋ฉด, ํ์ ์ ๋ณดยทํ๊ฐ ์๋ ์์ ์ด์ฉ ๊ฐ๋ฅ์ฑ. | ์์ ๋์ผ |
์ด๋ก ์ ๊ฐ์ | โข Zero-1-to-3 ๋ทฐํ์
์ด ์ ํํ depth prior๋ฅผ ์ ๊ณตํ๋ค๋ ๊ฐ์ . โข 2D diffusion์ด ๋ชจ๋ novel view์์ ์๋ฉํฑ ์ผ๊ด์ฑ์ ์ ์งํ๋ค๋ ๊ฐ์ . | Geometry-prior ์ค๋ช |
3. ์ฐ๊ตฌยท์ค๋ฌด์ ์์ฌ์ ๐
- ๊น์ด ๋ถํ์ค์ฑ ์ํ โ ๋ค์ค ์ฐธ์กฐ ๋ทฐยทLiDARยทSDF prior ํตํฉ ํ์.
- MaterialโLighting ๋ถ๋ฆฌ โ NeRF-in-the-Wild + inverse rendering ๊ธฐ๋ฒ ์ ๋ชฉ.
- ์ ๋น์ฉ ํ์ดํ๋ผ์ธ โ LoRA-style lightweight DreamBooth, distillation์ ํตํ inference-time ์ง์ ์ต์ ํ ์ฐ๊ตฌ.
- ์ค๋ฆฌ ๊ฐ์ด๋๋ผ์ธ โ ์ ์๊ถ ์ ๊ฒยท์ฌ์ฉ์ ์๋ฆผ ๋ฉํ๋ฐ์ดํฐ ์ฝ์ , watermarking ์ฐ๊ตฌ ๋ณํ.
์ ๋ฆฌ: DreamCraft3D๋ โ๊ณ ํด์ ร 360ยฐ ์ผ๊ดโ์ ์ฒ์์ผ๋ก ์๋ฆฝ์์ผฐ์ง๋ง, ๋จ์ผ ๋ทฐยท๊ณ ๋น์ฉยท์ฌ์งโง์กฐ๋ช ยท์ค๋ฆฌ ๋ฌธ์ ๊ฐ ์ฐจ์ธ๋ ํ ์คํธ-to-3D ์ฐ๊ตฌ ๊ณผ์ ๋ก ๋จ์ ์๋ค.
ํ๋กฌํํธ 1.5.2 (๋ฏธ๋ ์ฐ๊ตฌ ๊ถค์ )
"์ ์๋ค์ด ์ ์ํ๋ ๊ตฌ์ฒด์ ์ธ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ฌด์์ธ๊ฐ? ์ด ๋
ผ๋ฌธ์ ํ๊ณ์ ์ ๋ฐํ์ผ๋ก, ์ด ์ฐ๊ตฌ๋ฅผ ๋ฐ์ ์ํค๊ฑฐ๋ ์ฝ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด ์ถ๊ตฌํ ์ ์๋ ๋ค๋ฅธ ๋
ผ๋ฆฌ์ ์ธ ๋ค์ ๋จ๊ณ๋ ๋์์ ์ธ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ฌด์์ด ์์๊น?"
ํ๋กฌํํธ ๋ฐ์ดํฐ ๋ฐ ์ ์ฒ๋ฆฌ
"ํ์ต ๋ฐ ์ถ๋ก ์ ์ฌ์ฉ๋ ์ด๋ฏธ์ง ํด์๋๋ ์ผ๋ง์ธ๊ฐ? ์ ์ฉ๋ ๊ตฌ์ฒด์ ์ธ ๋ฐ์ดํฐ ์ฆ๊ฐ(data augmentation) ๊ธฐ๋ฒ(์: random cropping, color jitter, CutMix)์ ์ค๋ช
ํ๊ณ , ์ด๊ฒ์ด ์ด ํน์ ๋น์ ๊ณผ์ ์ ์ ์ค์ํ์ง ์ค๋ช
ํด ์ค."
ํต์ฌ ์์ฝ (TL;DR) DreamCraft3D์ ์ ์๋ค์ (1) ๊น์ด priors ๋ฐ ๋ทฐ ์ผ๊ด์ฑ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ์งยท์กฐ๋ช ๋ถ๋ฆฌ์ ๋ ์ ํํ ๊ธฐํยท๊น์ด ์ถ์ ์ โํฅํ ์ฐ๊ตฌโ๋ก ๋จ๊ฒผ๋ค. (2) ์ด ๋ฐ์๋ ํ๊ณ ๋ถ์์ ๋ฐ๋ฅด๋ฉด ๋์ โ์ฅ๋ฉด, ๋ฌผ๋ฆฌ๊ธฐ๋ฐ ์ฌ์ง, ๋จ์ผ-์ด๋ฏธ์ง ์ ์ฝ ์ํ, ์ต์ ํ ์๋ ๋ฑ์ด ๋ค์ ๋จ๊ณ์์ ๋ค๋ค์ง ๋ ผ๋ฆฌ์ ๊ณผ์ ๋ค.
1. ์ ์๋ค์ด ๋ช ์ํ โํฅํ ์ฐ๊ตฌโ ํฌ์ธํธ
๊ตฌ์ฒด์ ์ ์ | ๊ทผ๊ฑฐ๊ฐ ๋ ํ๊ณ | ๋ ผ๋ฌธ ์์น |
---|---|---|
์ฌ์ง(Material)ยท์กฐ๋ช (Lighting) ๋ถ๋ฆฌ โ 2D ์ฐธ์กฐ ์ด๋ฏธ์ง๋ก๋ถํฐ ์ฌ์ง๊ณผ ๊ด์์ ๋ถ๋ฆฌํ๋ ๋ถํด(disentanglement) ๋ชจ๋ ์ถ๊ฐ | ํ์ฌ๋ ์ฌ์งยท์กฐ๋ช ์ ๋ถ๋ฆฌํ์ง ์์ ๊ด์ ์์กด์ ํ ์ค์ฒ๊ฐ ์๊ธด๋ค๊ณ ํ์ | Limitations ์น์ โan aspect deferred for future explorationโ |
๊น์ด/๊ธฐํ priors ๊ฐ์ โ ์ ๋ฉด ๋ทฐ ์ ๋ณด๊ฐ ํ๋ฉด ํ ์ค์ฒ๋ก โ๋ฒ์ง(bleeding)โ๋๋ ํ์ ์ํ | ๊น์ด ๋ชจํธ์ฑ๊ณผ ๋จ์ผ depth prior ์ค์ฐจ๋ก ์ธํด ์ ยทํ๋ฉด ๋ถ์ผ์น ๋ฐ์ | Limitations |
์ค์ฉ ์์ฉ ํ๋ โ โdemocratizing 3D content creationโ์ ์ํ ์ถ๊ฐ ์ ์ฉ ์ฌ๋ก ํ์ | DreamCraft3D๊ฐ ์ ์ฌ์ ์์ฉ์ โgreat promiseโ | Conclusion |
์ ์ธ ๊ฐ์ง๊ฐ ๋ ผ๋ฌธ์์ ์ง์ ๋๋ ์์์ ์ผ๋ก ์ธ๊ธ๋ โfuture workโ์ด๋ค.
2. ์ถ๊ฐ์ ์ผ๋ก ๋ ผ๋ฆฌ์ ์ธ ๋ค์ ๋จ๊ณ ์ ์
ํ๊ณ ๋๋ ๊ด์ฐฐ | ์ ์ํ ์ฐ๊ตฌ ๋ฐฉํฅ | ๊ธฐ๋ ํจ๊ณผ & ์ ๋์ ๊ทผ๊ฑฐ(์ถ์ ) |
---|---|---|
๊น์ด prior ๋ถ์ ํ โ ์ ยทํ๋ฉด ํผ์ฌ, ์์ ๊ตฌ์กฐ ์ค๋ฅ | ๋ค์ค-์ฐธ์กฐ ์ด๋ฏธ์ง ํ์ฉ ๋๋ ์์ฒด ํ์ต depth estimator๋ฅผ ๊ณต๋ ์ต์ ํ | CLIP-LPIPS gap์ 5โ8 % ์ถ๊ฐ ๊ฐ์ ๊ฐ๋ฅ (๊ธฐ์กด CLIP 0.896 โ 0.94 ์์ค ๋ชฉํ) |
์ฌ์งยท์กฐ๋ช ๋ฏธ๋ถ๋ฆฌ | ๋ฌผ๋ฆฌ๊ธฐ๋ฐ ์ฌ์งโ์กฐ๋ช ๋ถ๋ฆฌ + PBR ๋ ๋๋ฌ ํตํฉ | ์ฌ์กฐ๋ช (reshooting) ์ PSNR 3 dB ์ด์ ํฅ์ ์์ |
์ต์ ํ๊ฐ 30 minโ2 h ์์ | Distillation-oriented feed-forward ๋คํธ์ํฌ๋ก one-shot ์์ฑ | ์ถ๋ก ์๊ฐ์ 10 ร ๋จ์ถ(๋ถโ์ด) |
๋จ์ผ ์ค๋ธ์ ํธ๋ง ์ฒ๋ฆฌ | Scene-level hierarchical NeRF + instance segmentation | ๋ณต์ ๊ฐ์ฒดยท๋ฐฐ๊ฒฝ ํฌํจํ๋ ์ฌ ์์ฑ ์ฑ๊ณต๋ฅ โ |
์ ์ ์ฌ ํ์ | 4D (๊ณต๊ฐ+์๊ฐ) NeRF + SDS ๋ก dynamic text-to-4D | ์ ๋๋ฉ์ด์ /๊ฒ์์ฉ 4D asset ์๋ ์์ฑ |
DreamBooth ๊ฐ์ธํ ๋น์ฉ | Parameter-efficient LoRA/IAยณ ์ ์ฉ | GPU ๋ฉ๋ชจ๋ฆฌ 60 %โ , fine-tune ์๊ฐ 3ร ๋จ์ถ |
3. ๊ฒฐ๋ก ๋ฐ ํฐ ๊ทธ๋ฆผ
DreamCraft3D๋ ๊ณ์ธต์ (geometry โ texture) ์์ฑ + Bootstrapped Score Distillation์ผ๋ก ๊ธฐ์กด SDS/VSD ๊ณ์ด ๋๋น PSNR โฅ 31.8 dB, LPIPS 0.005 ๋ก 20 %โ ํ ์ค์ฒ ์ผ๊ด์ฑ์ ๋ฌ์ฑํ๋ค . ๊ทธ๋ฌ๋ ๊น์ดโ๋ชจ๋ธยท์ฌ์ง ๋ถ๋ฆฌยท์๊ฐ ํจ์จ์ด ์์ง ๋ณ๋ชฉ์ผ๋ก ๋จ์ ์๋ค. ์ ํ์ ์ฐ๊ตฌ ๊ถค์ ์ ๋ฐ๋ผ๊ฐ๋ฉด,
- ์ฌ์งยท์กฐ๋ช ๋ถ๋ฆฌ๋ง์ผ๋ก๋ ์ฌ์กฐ๋ช ํ์ง์ด ๋ํญ ์์นํ๊ณ ,
- feed-forward distillation์ผ๋ก ์์ฑ ์๊ฐ์ ์ค์๊ฐ(โฒ 1 s) ์์ค๊น์ง ์ค์ด๋ฉฐ,
- ๋ฉํฐ-์ฐธ์กฐยท๋์ 4D ํ์ฅ์ ๊ฒ์ยท์ํยทAR/VR ์ ์ ํ์ดํ๋ผ์ธ์ ์ฆ์ ์ฐ๊ฒฐ๋ ์ ์๋ค.
์ฆ, DreamCraft3D๋ โ๋จ์ผ ์ ์ ์ค๋ธ์ ํธ 3Dโ์์ ์์ํ์ง๋ง, ์ฐจ์ธ๋ ์ฐ๊ตฌ๋ โ์ฌ-๋ ๋ฒจ, ๋์ , ์ค์๊ฐโ ํ ์คํธ-๊ธฐ๋ฐ 3D/4D ์์ฑ์ผ๋ก ์์ฐ์ค๋ฝ๊ฒ ํ์ฅ๋ ์ ๋ง์ด๋ค.
ํ๋กฌํํธ๋ชจ๋ธ ์ํคํ ์ฒ
"์ฌ์ฉ๋ ๋ฐฑ๋ณธ ์ํคํ
์ฒ๋ ๋ฌด์์ธ๊ฐ(์: ResNet, ViT, ConvNeXt)? ๊ณต๊ฐ์ ํน์ง(spatial features)์ ์ด๋ป๊ฒ ์ถ์ถ๋๊ณ ์ตํฉ๋๋๊ฐ? ๋ง์ฝ ํ์ง(detection)๋ ๋ถํ (segmentation) ๊ณผ์ ๋ผ๋ฉด, ๋ฐ์ด๋ฉ ๋ฐ์ค๋ ๋ง์คํฌ๋ฅผ ์์ฑํ๋ ๋ฉ์ปค๋์ฆ(์: anchor boxes, region proposal network)์ ์ค๋ช
ํด ์ค."
๐ช ๊ฒฐ๋ก ํ ์ค(TL;DR)
DreamCraft3D๋ โ2D U-Net(DeepFloyd IF) โ 3D-aware ViT(Zero-1-to-3) โ Scene-specific LoRA Stable-Diffusionโ ์ธ ๊ฐ์ ๋ํจ์ ๋ฐฑ๋ณธ๊ณผ, Instant-NGP hash grid NeRF + DMTet mesh๋ก ๊ตฌํ๋ ๊ธฐํ ๋ชจ๋์ ๊ณ์ธต์ ์ผ๋ก ์ฎ์ด, ๋จ๊ณ๋ง๋ค ๊ณต๊ฐ ํผ์ฒ๋ฅผ ์ถ์ถยท์ตํฉํ๋ค. ์ด ๋ณตํฉ ์ํคํ ์ฒ๊ฐ 360ยฐ ์ ํฉ์ฑ๊ณผ ์ฌ์ง๊ธ ํ ์ค์ฒ๋ฅผ ๋์์ ๋ฌ์ฑํ ํต์ฌ์ด๋ค.
1. ํ์ดํ๋ผ์ธ ๋ ์ด์ด๋ณ ๋ฐฑ๋ณธ ์์ฝ
๋จ๊ณ | ์ฃผ์ ๋ฐฑ๋ณธ | ๊ตฌ์กฐ์ ํน์ง | ์ญํ |
---|---|---|---|
2D SDS (Geometry Sculpting ์ด๊ธฐ) | DeepFloyd IF Stage-I U-Net (Latent Diffusion) | ResBlock + Self/Cross-Attention, 64ยฒ latent ๊ณต๊ฐ | ํ ์คํธ ํ๋ผํํธยท๋ ํผ๋ฐ์ค ์ด๋ฏธ์ง์์ ๊ฑฐ์น ์ง๋ง ์๋ฉํฑํ 2D ํผ์ฒ ์ถ์ถ โ LSDS ๊ทธ๋๋์ธํธ ๊ณ์ฐ |
3D-aware SDS | Zero-1-to-3 (DiT ๊ธฐ๋ฐ ViT) | Patch ViT์ ์นด๋ฉ๋ผ ํ ํฐ์ ์ฝ์ ํด View-Conditioning | ์ฐธ์กฐ ์ด๋ฏธ์ง โ ์์ ์์ ๊ฐ ๊ธฐํ priors ์ ๊ณต โ L3D-SDS ๊ทธ๋๋์ธํธ ์ฐ์ถ |
Bootstrapped Score Distillation | Stable-Diffusion v1.5 U-Net + LoRA (= DreamBooth) | ํ ์คํธยท์นด๋ฉ๋ผ ์กฐ๊ฑด Cross-Attn, LoRA ฮW โ 5 M | โ ๋ฉํฐ๋ทฐ ๋ ๋๋ง์ผ๋ก 3D-์ธ์ ํ๋ผ์ด์ด ์ฌํ์ต, โก ฮตDreamBoothโฮตLoRA ์ฐจ๋ฅผ ํตํด ํ ์ค์ฒ ์ ๋ฐ๋ ํฅ์ |
2. ๊ธฐํ(Shape) ๋ชจ๋ ๋ํ ์ผ
์๋ธ-์คํ ์ด์ง | ๋ด๋ถ ํํ & ๋ฐฑ๋ณธ | ๊ณต๊ฐ ํผ์ฒ ์ถ์ถยท์ตํฉ ๋ฐฉ์ |
---|---|---|
Implicit Surface | Neus MLP (1 layerยท32 hidden) + Instant-NGP multi-res hash grid(64โ384ยณ) | Hash-grid โ ํธ๋ฆด๋ฆฌ๋์ด ์ํ โ MLP; ๋ ์ด ์ํ์ ฯใปRGBใปNormal์ ์์ธกํด SDF ๋ณผ๋ฅจ ํผ์ฒ ์์ฑ |
Explicit Mesh | DMTet (128ยณ tet grid, 512px raster) | Neus์์ ์ถ์ถํ SDF๋ฅผ marching tetrahedra๋ก ๋ฉ์ฌํ ํ, differentiable raster๋ก ํฝ์ -ํผ์ฒ์ ๊ฒฐํฉ |
๊ณต๊ฐ ํผ์ฒ ์ตํฉ
- ๋ ๋๋ฌ *g(ฮธ;c)*๊ฐ NeRF/mesh ํผ์ฒ๋ฅผ ์นด๋ฉ๋ผ c ์ขํ๊ณ๋ก ํฌ์ํด 2D ๋ผํฐ์ค์ ์ ๋ถ
- 2D ํผ์ฒ๋ ๊ฐ ๋ํจ์ ๋ฐฑ๋ณธ(U-NetยทViT)์์ Conv/Attention์ผ๋ก ์ฌ์ธ์ฝ๋ฉ๋ผ ํ ์คํธ ํ ํฐยท์นด๋ฉ๋ผ ํ ํฐ๊ณผ Cross-Attn
3. Detection / Segmentation ๊ด๋ จ ๊ตฌ์กฐ?
๋ณธ ๋ ผ๋ฌธ์ ์์ฑ(Generation) ๋ฌธ์ ์ด๋ฉฐ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ ๋ง์คํฌ๋ฅผ ์ง์ ์์ธกํ์ง ์๋๋ค. ๋์ mask loss๋ก ์ค๋ฃจ์ฃ์ ์ ๊ทํํ ๋ ๋ ๋๋ง-๊ธฐ๋ฐ silhouette์ ์ด์ฉํ ๋ฟ ๋ณ๋ RPNยทAnchor ๋ฉ์ปค๋์ฆ์ ์กด์ฌํ์ง ์๋๋ค.
4. ์ ์ด ๊ตฌ์ฑ์ด ํต์ฌ์ธ๊ฐ?
- U-Net(๊ณ ํด์ ํ ์ค์ฒ) ร ViT(์ ์ญ ๊ธฐํ) ์ด์ค ํ๋ผ์ด์ด ํผํฉ โ Janus rate 77 % โ.
- LoRA DreamBooth๋ฅผ ์ฅ๋ฉด๋ณ๋ก ์ํ ํ์ต โ LPIPS 0.005, PSNR 31.8 dB.
- Hash-grid NeRF โ DMTet ์ ํ์ผ๋ก ๊ณ ์ฃผํ ๊ธฐํ์ ์ค์๊ฐ ๋ฏธ๋ถ ๋ ๋๋ง์ ๋ชจ๋ ๋ฌ์ฑ.
๊ฒฐ๊ณผ์ ์ผ๋ก ๋จ์ผ 2D ์ ๋ ฅ์ผ๋ก๋ ํ ์ค์ฒ์ ๊ตฌ์กฐ๊ฐ ์๋ฆฝํ๋ 3D ๊ฐ์ฒด๋ฅผ ๋น ๋ฅด๊ฒ ์์ฑํ ์ ์๋ค.
ํ๋กฌํํธ๋ชจ๋ธ ํ๊ฐ ๋ฐ ์งํ
"์ ํ๋(accuracy) ์ธ์ ์ด๋ค ๋ค๋ฅธ ์งํ๊ฐ ์ฌ์ฉ๋์๋๊ฐ(์: ํ์ง๋ฅผ ์ํ mAP, ๋ถํ ์ ์ํ IoU)? ์๊ฐ์ ๊ฒฐ๊ณผ์ ๋ํ ์ ์ฑ์ ๋ถ์์ด ์๋๊ฐ? ์๋ค๋ฉด, ๋ชจ๋ธ์ด ์ธ์์ ์ผ๋ก ์ฑ๊ณตํ ์์์ ์คํจํ ์์๋ฅผ ํ๋์ฉ ์ค๋ช
ํด ์ค."
โ ํต์ฌ ์์ฝ (1-๋ฌธ๋จ TL;DR)
DreamCraft3D๋ ์ ํ๋(accuracy) ๋์ ์์ฑ ๋ชจ๋ธ์ ์ ํฉํ CLIP ์ ์(โ), Contextual Distance(โ), PSNR(dB โ), LPIPS(โ) ๋ค ์งํ๋ก ์๋ฉํฑ ์ผ์นยท๊ตฌ์กฐ ๋ณด์กดยท๊ณ ์ฃผํ ํ ์ค์ฒ ํ์ง์ ๋์์ ์ธก์ ํ๋ค. 300-์ฅ ์ ์ฉ ๋ฒค์น๋งํฌ์์ LPIPS 0.005 (10ร โ)ยท**PSNR 31.8 dB (+9 dB)**๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ์ ์ฑ์ ์ผ๋ก๋ โ โ์ํผ์ฌ์ด์ธ ์์ค๊ณตโ ์ฌ๋ก์ฒ๋ผ 360ยฐ ํ ์ค์ฒยท๊ธฐํ๊ฐ ๋ชจ๋ ์ ๋ช ํ์ง๋ง, โ โ์ฝ๋ผ๋ฆฌ ์ฝโ ์ฌ๋ก์์๋ ๊น์ด ๋ชจํธ์ฑ ๋๋ฌธ์ ํ์์ด ๋ฌด๋์ง๋ค.
1. ์ฌ์ฉ๋ ํต์ฌ ์งํ์ ์๋ฏธ
์งํ | ์์ยท์๋ฏธ | DreamCraft3D ๊ฐ | ์ธก์ ๋ชฉ์ | |
---|---|---|---|---|
CLIP โ | ใfimg, ftxtใ cosine | 0.896 | ํ ์คํธ-์๋งจํฑ ์ผ์น | |
Contextual โ | CX distance (Mechrez 2018) | 1.579 | ํฝ์ -์์ค ๊ตฌ์กฐ ๋ณด์กด | |
PSNR โ | 10 log (255ยฒ/MSE) dB | 31.8 dB | ๊ณ ์ฃผํยท๋ ธ์ด์ฆ ๋ณด์กด | |
LPIPS โ | ฮฆ(VGG) ์๋ฒ ๋ฉ L2 | 0.005 | ์ง๊ฐ์ ํ ์ค์ฒ ์ ๋ช ๋ |
โป ๋ชจ๋ reference ๋ทฐ์ ๋น๊ตํด ์์นํํ๋ฉฐ, โโโ๋ ํด์๋ก ์ข์.
2. ์ ๋์ ํ์ด๋ผ์ดํธ
DreamCraft3D vs Make-it-3D (๋ํ baseline):
- LPIPS: 0.005 โ -90 % (0.054)
- PSNR: 31.8 dB โ +12.9 dB (18.9 dB)
- CLIP: +0.024, Contextual: -0.030
์ฌ์ฉ์ ์ฐ๊ตฌ(32 ๋ช ยท480 ์๋ต)์์๋ 92 % ์ ํธ๋ก ์ฐ์๋ฅผ ํ์ธํ๋ค.
3. ์ ์ฑ์ ๋ถ์ โ ์ฑ๊ณตยท์คํจ ์ฌ๋ก
๊ตฌ๋ถ | ์ฅ๋ฉด-์ค๋ช (Fig.) | ๊ด์ฐฐ | ์์ธ ๋ถ์ |
---|---|---|---|
์ฑ๊ณต | โSuper Saiyan Goku unleashes a massive energy waveโ โ Fig. 3 | ์๋์ง ํยท๋จธ๋ฆฌ์นด๋ฝ ๊ณ ์ฃผํ ํ ์ค์ฒ๊ฐ ์ ยท์ธกยทํ๋ฉด ๋ชจ๋ ๊ท ์ผ, Janus ็ก | โ 2-stage ํ์ดํ๋ผ์ธ์ผ๋ก ๊ธฐํโํ ์ค์ฒ ๋ถ๋ฆฌ, โก 2-round BSD๊ฐ ์์ ์ผ๊ด ํ ์ค์ฒ ๊ฐํ |
์คํจ | โElephant noseโ โ Fig. 9 | ์ฝ๊ฐ ๊ณผ๋ํ๊ฒ ๊ตฝ๊ฑฐ๋ ํ์, ๋ท๋ฉด ๊ธฐํ ์๊ณก | ๋จ์ผ 2D ์ฐธ๊ณ ๋ทฐ์ ๊น์ด ๋ชจํธ์ฑยทZero-1-to-3 prior ํ๊ณ โ ๊ธฐํ ์ถ์ ์ค๋ฅ |
์ ์๋ค์ ์ด๋ฌํ ์คํจ๋ฅผ โ๊น์ดยท์ฌ์ง ๋ถ๋ฆฌ๋ฅผ ํฅํ ์ฐ๊ตฌ๋ก ๊ฐ์ โํ ๊ณผ์ ๋ก ๋ช ์ํ๋ค.
4. ์ accuracy ๋์ ์ด ์งํ์ธ๊ฐ?
- ์์ฑโ/โ์ฌ๊ตฌ์ฑ ๊ณผ์ ์ด๋ฏ๋ก ์ ๋ต ํด๋์ค๊ฐ ์๊ณ , ํฝ์ ์ ํ๋(accuracy)๋ ์ ๋ณด๋์ด ๋ถ์กฑ.
- CLIPยทCXยทLPIPSยทPSNR ์กฐํฉ์ด ์๋งจํฑ โ ๊ตฌ์กฐ โ ์ ์ฃผํยท๊ณ ์ฃผํ ์ง๊ฐ ํ์ง์ ๊ณ์ธต์ ์ผ๋ก ์ปค๋ฒํด 3D ์์ฐ ์ค์ฉ์ฑ์ ์ ๋ํํ๊ธฐ์ ์ ํฉ.
5. ์์ฝ ๋ฉ๋ชจ
DreamCraft3D๋ ๋ค ์งํ ๋ชจ๋ SoTA๋ฅผ ๊ฒฝ์ ํ์ง๋ง, ๊น์ด ๋ชจํธ์ฑ์ด ํฐ ๋น๊ฐ์ฒด์์ ์ฌ์ ํ ์คํจ ์ฌ๋ก๊ฐ ์กด์ฌํจ์ ์ ์ฑ ๋ถ์์ผ๋ก ํ์ธํ๋คโ์ด๋ ๋ฉํฐ-๋ทฐ ์ ๋ ฅ์ด๋ ๋ ๊ฐํ 3D prior๋ก ๋ณด์ํ ์ฐ๊ตฌ ์ฌ์ง๋ฅผ ๋จ๊ธด๋ค.
๋๊ธ