Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures
논문 링크 DeepSeek-V3: 2 048 대 H800으로 405 B-급 LLM을 돌린다는 것의 의미 TL;DR ― 한 줄 요약 Multi-Head Latent Attention (MLA) + FP8 MoE + Dual-Pipe + 2-계층 MPFT 덕분에 DeepSeek-V3는 KV …
26 분