DeepSeek-V3 Technical Report논문 링크 한 줄 요약 (TL;DR) DeepSeek-V3는 671 B-parameter MoE LLM에 Aux-loss-free Load-Balancing Bias + FP8 혼정밀 훈련 + Multi-Token Prediction을 결합해, dense 405 B 모델과 동급 (또는 … 2025년 07월 05일 35 분