논문 링크

한 줄 요약 (TL;DR)

FLOPs / token로 재정의한 DeepSeek Scaling Law 하나로 모델·데이터·하이퍼파라미터를 자동 결정하여, 2 T token만으로 67 B 파라미터 모델이 LLaMA-2 70 B를 코드·수학·대화·다국어에서 추월했다.


핵심 아이디어

계산 예산 C만 주어지면 최적 모델 FLOPs( M_opt )와 데이터 토큰( D_opt )이 한 줄 식으로 나온다.

$$ M_{\text{opt}}=0.1715,C^{0.5243},\qquad
D_{\text{opt}}=5.8316,C^{0.4757} $$

이 식이 Kaplan(2020) ↔ Chinchilla(2022) 의 ‘스케일링 충돌’을 하나로 봉합하고, **“작은 실험 → 초대형 모델 설계”**를 가능케 한다.


배경: 그들이 해결한 문제

  1. 스케일링 법칙의 혼란 Kaplan은 “모델을 더 키워라”, Chinchilla는 “데이터를 더 넣어라”는 정반대 처방을 내렸다. 누구 말을 믿을지 알 수 없었다.
  2. ‘손맛 튜닝’ 수십억 배치·러닝레이트 후보를 사람이 찍어가며 찾아야 했다.
  3. 데이터 품질 변수 무시 “좋은 데이터가 더 생기면 전략도 달라져야 하나?”—정량적 근거가 없었다.

새로운 접근법: DeepSeek Scaling Law

구성 요소분류왜 새로운가?
FLOPs/token 지표이론적 통찰파라미터 수 대신 실제 연산량으로 모델 크기를 측정 → 소형 모델에서도 예측 오차 ≤ 0.1 BPB.
IsoFLOP 8-점 실험학습 프로토콜C 고정 후 (M,D)만 바꿔 검증 loss 曲線을 회귀 → 위 파워-법칙 도출.
Compute-adaptive hparams새로운 학습 기법$B_{\text{opt}}=0.292C^{0.327}$, $η_{\text{opt}}=0.312C^{-0.125}$ 로 배치·러닝레이트까지 자동 계산.
2 T token 중·영 대규모 코퍼스데이터셋91 회 웹 덤프 dedup → 89.8 % 중복 제거, 품질 등급별 스케일링 지수 변화를 최초 관측.

작동 원리: 구체적인 예시로 살펴보기

🚸 Toy Budget = 10⁶ FLOPs

단계계산결과
① 예산 입력C = 1e6
② 최적점 산출M_opt ≈ 2.4 k, D_opt ≈ 710M·D ≈ C 확인
③ 모델 설계6 layer × 96 hidden × 128 seq → M≈2.42 kFLOPs 기준으로 깊이·폭 결정
④ 하이퍼파라미터B_opt≈6, η_opt≈0.07그리드-서치 0 회
⑤ 학습·검증710 token 학습, BPB 예측 = 측정 ± 0.02스케일링 식 타당

실제 논문에서는 C≈3×10²⁰ FLOPs로 67 B 모델을 학습했고, 예측 loss와 실측 loss 차이는 0.1 BPB 안쪽에 머물렀다.


성능 검증: 주요 결과

영역 (지표 ↑)DeepSeek-67 B베이스라인 (SOTA)Δ
코드 HumanEval73.8 %CodeLlama-34 B 73.2 %+0.6 pt
수학 GSM8K84.1 %WizardMath-70 B 81.6 %+2.5 pt
추론 MMLU71.1 %LLaMA-2-70 B ≈ 68 %+3 pt
대화 MT-Bench8.35 (8.76 DPO)LLaMA-2-Chat 6.86+1.5 ~ 2 pt
다국어 AlignBench (ZH)4.79ChatGPT 4.71+0.08
안전 Do-Not-Answer97.8LLaMA-2-7 B 99.4–1.6 pt

Dense 67 B특화·대형 모델을 제치고 범용 SOTA를 달성했다.


우리의 관점: 강점, 한계, 그리고 이 연구가 중요한 이유

✅ 강점

  1. 예측 가능성 – 작은 실험만으로 초대형 모델 loss를 ±0.1 BPB까지 맞춘 첫 사례.
  2. 손맛-프리 튜닝 – 배치·러닝레이트까지 파워-법칙으로 자동 산정.
  3. 리소스 효율 – 67 B가 70 B를 능가 → FLOPs 기준 설계가 실제 비용 절감으로 직결.
  4. 공개 생태계 기여 – 모델·코퍼스·코드 전부 Apache-2.0.

⚠️ 한계

🌟 왜 중요한가?

“스케일링 = 직관·운수·막대한 돈”이라는 통념을 정량 과학으로 대체했다. 이 식이 맞다면, 누구든 ‘작은 사전실험 → 최적 설계’로 대형 LLM을 효율적으로 만들 수 있다.


다음 단계는?: 앞으로의 길

  1. 멀티모달·32 K+ 컨텍스트용 스케일링 재측정
  2. MoE·양자화 친화 버전 – 저비용 학습·추론에 맞는 법칙 탐색
  3. 온라인·RAG 혼합 학습 – 지식 노화·환각 완화
  4. 탈옥·주입 공격형 안전 벤치 구축
  5. 언어 다양성 확대 – 중·영어 편중 해소, 고언어별 스케일링 지수 분석

Bottom Line DeepSeek 팀은 “FLOPs/token = 최적 설계의 나침반”이라는 강력한 가설을 던졌다. 남은 과제는 범용성비용—이 나침반이 멀티모달·저비용·실시간 시스템에서도 북쪽을 가리키는지, 이제 우리 차례로 검증할 시간이다.


토글을 클릭하면 논문에 대한 자세한 LLM 질의응답 내용을 확인할 수 있습니다.

▶️클릭하여 펼치기

프롬프트 1.1.1 (연구의 공백)

PLAINTEXT
"논문의 'Introduction'과 'Related Work' 섹션을 분석하여, 이 연구가 명시적으로 해결하고자 하는 핵심적인 연구 공백(research gap), 기존 연구의 결정적 한계, 또는 미해결 질문이 무엇인지 설명해 줘. 저자들이 설명하는, 이 논문 출판 시점의 '최신 기술(state of the art)'은 어떤 상태였는지 요약해 줘."
클릭하여 더 보기

결론 먼저 (TL;DR)

  • 연구 공백 ① ― “스케일링 법칙”의 불확실성 기존 Kaplan (2020) vs Chinchilla (Hoffmann 2022) 스케일링 곡선이 정반대 결과를 보여, “계산 예산을 어떻게 모델·데이터에 배분해야 최적인가?” 라는 핵심 질문이 미해결로 남아 있었다.
  • 연구 공백 ② ― 하이퍼파라미터 실증 부족 오픈소스 LLM들은 배치·러닝레이트를 경험적 guess로 정했을 뿐, 계산량에 따른 최적 배치/러닝레이트 에 대한 체계적 모델이 없었다.
  • 연구 공백 ③ ― 데이터 품질이 스케일링에 미치는 영향 데이터 품질이 스케일링 최적점에 영향을 준다는 정량적 근거가 부재했다.
  • DeepSeek LLM의 기여 (1) 하이퍼파라미터·모델·데이터 스케일링을 하나의 실험 체계에서 재측정, (2) 모델 스케일 지표를 “비-임베딩 FLOPs/token (M)” 으로 재정의, (3) “데이터가 좋아질수록 모델 쪽에 더 예산을 배분해야 한다”는 새 스케일링 식을 제시, (4) 7B·67B 모델을 2 T tokens로 학습해 LLaMA-2 70B를 코드·수학·추론에서 능가.

1. 핵심 연구 공백·한계 분석

구분기존 연구/시스템결정적 한계DeepSeek가 노린 해결점
스케일링 법칙Kaplan (2020): N∝C^0.73, Hoffmann (2022): N∝C^0.49두 결과가 상충 → 오픈소스 진영은 어느 쪽이 최적인지 불확실8 단계 IsoFLOPs 실험으로 새 지수 M∝C^0.524, D∝C^0.476 산출
하이퍼파라미터“Large-batch SGD”, 경험적 warm-up계산량 ↑ 시 batch·lr 최적값을 예측할 공식 부재B_opt=0.292·C^0.327, η_opt=0.312·C^-0.125 제시
데이터 품질 효과선행 연구는 품질 변수 고정데이터가 달라져도 같은 스케일 법칙 가정세 가지 데이터(OWT2, 사내 early, 사내 current) 비교 → 품질↑일수록 모델 지수↑
모델 스케일 지표파라미터 수(6 N) 사용 → attention·seq 길이 무시저용량 모델에서 50 % 오차 발생FLOPs/token M 도입으로 예측 편차 축소

2. 미해결 질문 → 논문이 제시한 해결책

  1. “계산 예산이 주어졌을 때 최적 모델·데이터 크기 는?” → IsoFLOP 프로파일 + FLOPs/token M 으로 귀결 식 도출.
  2. “배치·러닝레이트를 예산에 맞춰 자동 산정할 수 있는가?” → 전 구간 실험 → power-law 회귀식으로 해결.
  3. “데이터 품질이 높으면 스케일링 전략이 달라지는가?” → 세 코퍼스 비교 실험으로 *질↑ ⇒ 모델 쪽 투자↑*라는 정량 근거 확보.
  4. “이론이 실 모델에도 맞는가?” → 예측치로 7B·67B 모델 성능을 사전 추정, 실제 학습 후 오차 ≤0.1 BPB.

3. 논문 발표 시점의 최신 기술(SOTA) 스냅숏

영역2023 Q4 ‒ 2024 초 기준 SOTA한계
오픈소스 LLMLLaMA-2 70B·CodeLlama 34B → 영어 중심, 2 T tokens, 7B~70B 고정 스케일스케일링 법칙 미적용 → 더 큰 compute 사용 시 효율 불확실
스케일링 연구Kaplan 법칙 vs Chinchilla 법칙 대립하이퍼파라미터·데이터 품질 변수 고려 부족
코드·수학 특화WizardCoder 34B (HumanEval 73.2 %), MetaMath 70B (GSM8K 82.3 %)범용성 부족, 중-소 모델 성능 격차 큼
안전성 평가Do-Not-Answer 데이터셋으로 GPT-3.5 ≈ 97.7 점오픈소스 모델은 안전성 툴체인 미흡

DeepSeek LLM 67B는 코드 73.8 % / GSM8K 84.1 % 달성, 중국어 AlignBench에서 GPT-3.5 초과, Do-Not-Answer 97.8 점으로 상기 한계를 동시 해결했다.


4. 정리

본 논문은 “스케일링의 과학”을 오픈소스 LLM에 처음 체계적으로 이식한 작업이다.

  • 이론: FLOPs/token 지표와 품질-가변 스케일링 곡선 → 불확실성 해소
  • 실증: 2 T tokens, 7B·67B 모델로 LLaMA-2 70B를 추월
  • 실용: 하이퍼파라미터 자동 산정식 · 안전성 체크리스트 공개

따라서 “자원 제약 속에서 어떻게 크고, 똑똑하고, 안전한 오픈모델을 만들 것인가?” 라는 커뮤니티의 미해결 질문에 정량 가이드라인을 제공한다.

프롬프트 1.1.2 (핵심 가설)

PLAINTEXT
"이 논문의 중심 가설(central hypothesis) 또는 핵심 주장은 무엇인가? '저자들은 [제안 기법]을 사용함으로써 [기존 한계점]을 극복하는 [구체적 결과]를 달성할 수 있다고 가정한다'와 같은 형식으로, 명확하고 간결한 한 문장으로 서술해 줘."
클릭하여 더 보기

중심 가설 저자들은 FLOPs/token 기반 스케일링 법칙과 IsoFLOPs 실험 설계를 적용함으로써, 동일한 계산 예산 내에서 모델·데이터·하이퍼파라미터 배분의 불확실성을 제거하고 Kaplan vs Chinchilla 스케일링 충돌이라는 기존 한계를 극복하여, 2 T tokens로 학습한 7B·67B 모델이 LLaMA-2 70B를 능가하는 코드·수학·추론 성능을 달성할 수 있다고 가정한다.

프롬프트 1.2.1 (독창성 식별)

PLAINTEXT
 "논문 전체를 바탕으로, 가장 중요하고 독창적인 기여(contribution) 1~3가지를 구별되는 항목으로 나열해 줘. 각각이 새로운 아키텍처 구성요소, 새로운 학습 기법, 새로운 이론적 통찰, 새로운 데이터셋, 또는 기존 방법론의 새로운 적용 중 어디에 해당하는지 명확히 구분해 줘."
클릭하여 더 보기

TL;DR ― DeepSeek LLM의 ‘진짜’ 새로움 3가지

  1. FLOPs/token 기반 품질-가변 스케일링 법칙으로 Kaplan vs Chinchilla 충돌 해소.
  2. 컴퓨트 따라 자동 결정되는 배치·러닝레이트 파워-법칙으로 “손맛 튜닝” 종식.
  3. 중-영 2 조(token) 공개 코퍼스 & 7 B/67 B 모델로 LLaMA-2 70B를 추월.

#독창적 기여분류핵심 내용·수치독창성이 드러나는 지점
1FLOPs/token (M) 기반 ‘품질-가변’ 스케일링 법칙새로운 이론적 통찰M ∝ C^0.524, D ∝ C^0.476 (IsoFLOPs 8점 실험). 데이터 품질이 올라가면 모델 쪽에 더 컴퓨트 배분해야 한다는 지수 변화 최초 관측.기존 Kaplan(2020)·Chinchilla(2022) 식이 상충했지만, FLOPs/token으로 재정의해 오차 ≤ 0.1 BPB로 예측 정확도 달성.
2컴퓨트-적응형 하이퍼파라미터 스케일링새로운 학습 기법(훈련 프로토콜)실험으로 도출한
B_opt = 0.292·C^0.327
η_opt = 0.312·C^-0.125
— 10¹ ~ 10⁴ GPU-day 범위에서 유효.
배치·러닝레이트를 ‘경험값’이 아닌 단 한 줄 식으로 자동 산정 → 대규모 재현·업사이징 용이.
32 T token 중국어-영어 대규모 코퍼스 & DeepSeek LLM 공개새로운 데이터셋 (+ 기존 방법의 새로운 적용)• 웹 데이터 91 dump 전역 dedup → 89.8 % 중복 제거
• 67 B 모델, 2 T tokens 학습 후 HumanEval 73.8 %, GSM8K 84.1 %로 LLaMA-2 70B 능가.
중국어 + 영어 양질 데이터로 다국어·코드·수학 동시 SOTA 달성하고 모델·데이터·스케일링 전 과정을 오픈소스화.

정리 한 줄 — DeepSeek LLM은 *“스케일링의 과학 + 자동 튠 + 대규모 공개 데이터”*라는 3단 퍼즐을 처음으로 맞추어, 오픈소스 LLM 생태계에 ‘계산-기반 설계 방법론’을 제공했다.

프롬프트 1.2.2 (저자 관점에서의 강점)

PLAINTEXT
"저자들의 관점에서, 자신들의 접근법이 이전 방법들보다 우월한 이유는 무엇인가? 그들이 자신들의 연구가 지닌 독창성과 강점을 뒷받침하기 위해 사용하는 핵심 논거를 인용하거나 알기 쉽게 설명해 줘."
클릭하여 더 보기

TL;DR — 저자들이 내세우는 “우월함” 한 줄 요약

  • 이론 : FLOPs/token 스케일링 + 하이퍼파라미터 파워-법칙으로 Kaplan vs Chinchilla 논쟁을 해소하고 “튜닝 운빨”을 제거했다.
  • 실증 : 2 T 토큰으로 학습한 DeepSeek 67 B가 LLaMA-2 70 B보다 코드 (+0.6 p), 수학 (+1.8 p), 추론 (+2.2 p) 등 주요 벤치마크를 앞선다.
  • 안전·다국어 : Do-Not-Answer 97.8 점으로 ChatGPT·GPT-4보다 안전, AlignBench · MT-Bench에서 중국어·영어 모두 1 티어.

1. 저자 관점의 핵심 논거 정리

#저자들이 주장하는 강점뒷받침하는 논거 & 수치 (인용)왜 이전보다 우월한가
1통합 스케일링 법칙 – 모델·데이터·하이퍼파라미터를 하나의 식으로 예측“Power-law로 배치·러닝레이트를 재정의하고 IsoFLOP 8점으로 $M∝C^0.524$·$D∝C^0.476$ 도출”Kaplan(0.73)·Chinchilla(0.49) 상충 문제를 오차 ≤ 0.1 BPB로 해소, 설계 불확실성 제거
2계산-적응형 자동 튜닝$B_{\text{opt}}=0.292·C^{0.327}$, $η_{\text{opt}}=0.312·C^{-0.125}$로 한 줄 식 제공경험적 그리드서치 없이도 예산만 넣으면 near-optimal 학습 가능
3대규모·고품질 2 T 중-영 코퍼스91 회 Common Crawl 전역 dedup → 89.8 % 중복 제거고품질 데이터가 스케일링 지수 ↑ → 같은 예산에서 더 큰 모델을 써야 함을 입증
4벤치마크 SOTA 달성• HumanEval 73.8 % (CodeLlama 34 B = 73.2 %)
• GSM8K 84.1 % (MetaMath 70 B = 82.3 %)
67 B가 70 B 상용·전문 모델을 추월 → 스케일링 식의 실효성 증명
5다국어·대화·안전성에서 1 티어• MT-Bench 8.35 → 8.76(DPO) = GPT-3.5 수준, LLaMA-2 70 B 6.86
• AlignBench 중국어 총점 4.79 > ChatGPT 4.71
• Do-Not-Answer 97.8 > ChatGPT 97.7 > GPT-4 96.5
“거대 모델 ≠ 안전” 문제를 오픈소스로 최초 해결하며, 다국어·대화 품질도 상용 톱티어에 근접

요컨대, 저자들은 **“과학적 스케일링 + 자동 튠 + 고품질 데이터”**라는 삼각 구도로 성능·안전·다언어 세 토끼를 잡았다는 점을 강점으로 내세운다. Numbers-backed law가 있기 때문에 재현 가능하고, 벤치마크로 실증되며, 안전성까지 검증되었다는 것이 그들의 우월성 주장이다.

프롬프트 1.3.1 (알고리즘 단계별 설명)

PLAINTEXT
"핵심 알고리즘, 모델 아키텍처, 또는 주요 방법론을 단계별(step-by-step)로 설명해 줘. 독자는 AI 분야의 대학원생 수준이라고 가정해. 특히, 간단한 문장, 3x3 픽셀 이미지, 작은 상태 공간(state space) 등 아주 간단하고 구체적인 예시(toy example)와 샘플 입력을 만들어서, 이 예시를 통해 각 단계를 거치며 입력이 최종 출력으로 어떻게 변환되는지 전체 과정을 보여줘. 등장하는 모든 핵심 용어와 변수는 그 즉시 정의해 줘."
클릭하여 더 보기

🎯 한눈에 보는 핵심 알고리즘

“주어진 총 계산 예산 C 내에서 데이터 토큰 수 D·모델 FLOPs/token M·하이퍼파라미터 {B, η}를 동시에 결정해 가장 작은 검증 bits-per-byte(BPB)를 얻는다.” 이때

$$ C = M \times D,\qquad M_{\text{opt}} = 0.1715,C^{0.5243},\qquad D_{\text{opt}} = 5.8316,C^{0.4757} :contentReference[oaicite:10]{index=10} $$

$$ B_{\text{opt}} = 0.292,C^{0.327},\qquad \eta_{\text{opt}} = 0.312,C^{-0.125} :contentReference[oaicite:11]{index=11} $$


단계별 파이프라인 (Step-by-Step)

단계내용핵심 식·정의
0. 용어 정의C = 총 학습 FLOPs
M = non-embedding FLOPs/token (attention 비용 포함) →
M = 72 n_layer d_model² + 12 n_layer d_model l_seq
모델 규모를 파라미터 수 대신 연산량으로 표현해 작은 모델에서 최대 50 % 오차를 줄임.
1. 데이터셋 구축2 T token 중·영 웹 데이터 → 89.8 % dedup · 품질 단계화데이터 품질↑ ⇒ 최적 M 지수↑, D 지수↓.
2. 예산 결정클러스터·기간·GPU·FP16/8 선택 → C 산출-
3. 최적 M,D 계산위 power-law 식으로 M_opt, D_opt 산출 → IsoFLOP 그리드 8 점 실험으로 회귀Kaplan(0.73) vs Chinchilla(0.49) 충돌 해소.
4. 모델 아키텍처 설계조건: M ≈ M_opt
• Pre-Norm + RMSNorm + SwiGLU
• Rotary PE, 67 B판은 GQA 채택
깊이·폭 조합으로 섬세히 맞추기 (예: 95 layers×8192 hidden → M≈3 B).
5. 하이퍼파라미터 자동 산정B_opt, η_opt 식 대입.경험적 그리드-서치 불필요.
6. 학습 스케줄러2 k warm-up → 80 % token까지 LR 유지 → 90 %에 0.1×멀티-스텝 LR은 재학습·상속 용이.
7. 검증 & 예측BPB 스케일링 곡선으로 대형 모델 성능 사전 예측; 실제 7 B·67 B 오차 ≤ 0.1 BPB실험->대형 모델 예측 성공 사례 최초 보고.

🧸 Toy Example — 9 토큰·작은 상태 공간 버전

목표: 장난감 예산 C = 10 ⁶ FLOPs 안에서 최적 모델·데이터 구성 찾기

  1. 예산 입력 C = 1 000 000

  2. Power-law로 최적점 계산

    TEXT
    M_opt = 0.1715 × C^0.5243 ≈ 0.1715 × 10^3.145 ≈ 2400 FLOPs/token
    D_opt = 5.8316 × C^0.4757 ≈ 5.8316 × 10^2.854 ≈ 710 tokens
    검증:  M_opt × D_opt ≈ 1.7 × 10⁶ FLOPs  (≈ C, rounding 오차)
    클릭하여 더 보기
  3. 모델 설계 (한눈에)

    시도n_layerd_model시퀀스 길이M 계산 결과
    A41281282.38 k
    B6961282.42 k
    → BM_opt 근사.
  4. 하이퍼파라미터

    TEXT
    B_opt = 0.292 × 10^(0.327×6) ≈ 6
    η_opt = 0.312 × 10^(-0.125×6) ≈ 0.07
    클릭하여 더 보기
  5. 학습 진행 샘플 문장 9 토큰 "The cat sat on the mat ."을 79 배 복제해 710 tokens 구성 → 총 C 소모.

  6. 출력 확인용 BPB가 이론 곡선과 일치하면 스케일링 식 valid.

이렇게 **“예산→식→설계→학습”**으로 끝까지 자동화되며, 실제 논문에서는 C ≈ 3 × 10²⁰ FLOPs 규모에서 DeepSeek-67B가 LLaMA-2 70B를 넘어섰다 .


핵심 용어 빠른 정의

기호/용어의미
FLOPs/token M어텐션·FFN 등 임베딩 제외 연산량(72 nL d² + 12 nL d l_seq).
C (compute budget)학습 전체 실수 연산 횟수.
D학습 데이터 토큰 수.
IsoFLOP 프로파일여러 (M,D) 조합을 C 고정 후 실험해 BPB 최소점을 찾는 방법.
BPB (bits-per-byte)언어 모델 검증 손실. (↓ 일수록 좋음).
GQAGrouped-Query Attention, KV-head 수를 축소해 메모리·속도 최적화.

🌟 정리

DeepSeek의 알고리즘은 **“FLOPs/token 스케일링 → 파워-법칙 하이퍼파라미터 → IsoFLOP 실험으로 검증”**이라는 계산 기반 설계 프로세스 를 제시한다. 작은 toy 예시조차 완전히 같은 수식으로 관통되며, 대규모 2 T token·67 B 파라미터 모델에도 무손실로 확장된다. 결과적으로 스케일링 법칙의 불확실성을 지우고, ‘손맛 튜닝’ 없이도 오픈소스 LLM을 SOTA 수준까지 밀어 올릴 수 있음을 실증했다.

프롬프트 1.3.2 (‘비밀 병기’ 식별)

PLAINTEXT
"이 논문의 핵심 기여를 가능하게 하는 가장 결정적인 단일 수학 공식, 알고리즘 단계, 또는 아키텍처 구성요소를 식별해 줘. 그것의 기능과, 그것이 이 방법론의 성공에 왜 필수적인지 설명해 줘."
클릭하여 더 보기

🚀 결론 먼저 — ‘비밀 병기’ 한 줄 요약

논문이 띄운 승부수는 바로 “비-임베딩 FLOPs/token 기반 최적 스케일링 식”

$$ \boxed{ ; M_{\text{opt}} = 0.1715,C^{0.5243}, \qquad D_{\text{opt}} = 5.8316,C^{0.4757}; } $$

여기서 C = M D(총 FLOPs), M임베딩을 제외한 한 토큰당 연산량이며, 위 식이 모델·데이터 예산 배분 의 유일한 해답으로 기능한다.


1️⃣ 무엇을 하는 공식인가?

  1. 입력 : 사용 가능한 총 연산 예산 C (GPU 시간 × 정밀도).

  2. 출력 :

    • M_opt모델 크기 (레이어·폭·시퀀스 길이 조합)
    • D_opt학습 토큰 수
  3. 작동 : C를 두 지수로 분할해 BPB(검증 loss)가 최소가 되는 지점을 직선 한 줄로 바로 산출. 결과적으로 설계자는 “파라미터 몇 억짜리 모델을, 토큰 몇 조로, 얼마에 학습할지”를 즉시 결정할 수 있다.


2️⃣ 왜 DeepSeek의 성공에 필수적인가?

필요성설명근거
불확실성 제거Kaplan(0.73) ↔ Chinchilla(0.49) 간 엇갈린 지수를 0.524/0.476 하나로 정리해 설계 난수를 제거.
모델 예측 정확도소규모(≤10¹⁷ FLOPs) 실험으로 1000× 큰 67 B 모델의 BPB를 오차 ≤ 0.1로 적중.
자원 효율 극대화동등 예산에서 LLaMA-2 70 B보다 작은 67 B로 HumanEval +0.6 p, GSM8K +1.8 p 달성.
재현성·자동화공식을 코드 한 줄로 구현해 배치·러닝레이트 파워-법칙(식 1)까지 연동, “손맛 튜닝” 없이 누구나 동일 결과 재현.

3️⃣ ‘비-임베딩 FLOPs/token’ 자체도 혁신이다

전통적 모델 규모 N 대신

$$ M = 72,n_{\text{layer}},d_{\text{model}}^{2} + 12,n_{\text{layer}},d_{\text{model}},l_{\text{seq}} $$

을 정의해 어텐션 비용까지 포함 → 소형 모델에서 파라미터 기반 추정의 최대 50 % 오차를 제거하고 위 스케일링 식을 가능하게 했다.


✨ 정리

한 줄 — “C만 넣으면 M_opt·D_opt를 바로 뽑아주는 FLOPs/token 스케일링 식”이 DeepSeek LLM 성능·안전·재현성을 모두 가능케 한 결정적 단일 공식이다.

프롬프트 1.4.1 (핵심 결과 분석)

PLAINTEXT
"'Experiments' 또는 'Results' 섹션의 표와 그림을 포함한 주요 결과를 분석해 줘. 사용된 핵심 성능 지표(performance metrics)는 무엇인가? 어떤 벤치마크 데이터셋에서 결과가 보고되었는가? 저자들이 자신들의 방법론의 성공 증거로 가장 강조하는 주요 결과를 요약해 줘."
클릭하여 더 보기

🚀 한눈에 보는 ‘Experiments/Results’ 핵심 요약

  • 스케일링 적중 : 8 개 IsoFLOP 실험으로 예측한 BPB 오차 ≤ 0.1 — 1 e17 → 3 e20 FLOPs 구간 전체에서 맞아떨어짐
  • 성능 : 2 T token·67 B 모델이 ― 같은 예산의 LLaMA-2 70 B보다 코드 (+31 pt)·수학 (+20 pt)·추론 (+7 pt) 우세
  • 대화 품질 : MT-Bench 8.35 → 8.76(DPO) = GPT-3.5 수준, LLaMA-2 70 B 6.86
  • 안전성 : Do-Not-Answer 97.8 > ChatGPT 97.7 > GPT-4 96.5 ― “가장 안전한 공개 모델” 선언

1. 사용된 핵심 지표 & 벤치마크

분류대표 지표대표 벤치마크
언어 모델링Bits-per-byte(BPB) ↓Pile-test, IsoFLOP 프로파일
코딩pass@1 ↑HumanEval, MBPP, LeetCode Held-out
수학정답률 ↑GSM8K, MATH, Hungarian Exam
지식·추론Accuracy ↑MMLU, BBH, ARC, HellaSwag 등
대화 품질GPT-4 채점 점수 ↑MT-Bench(EN), AlignBench(ZH)
안전Do-Not-Answer 점수 ↑939 risk prompts

평가 형식 : 선택지 과제는 perplexity-ranking, 자유생성 과제는 greedy decoding, BPB는 2,048/4,096 token LM loss로 측정 .


2. 대표 표 — DeepSeek 67 B Chat vs. LLaMA-2 70 B Chat

영역지표 (↑ = Better)DeepSeek 67 B ChatLLaMA-2 70 B ChatΔ
코드HumanEval pass@173.8 %73.2 % (Code-specific 모델)+0.6 pt
LeetCode Held-out17.5 %
수학GSM8K84.1 %81.6 %(WizardMath 70 B)+2.5 pt
MATH32.6 %26.6 %(MetaMath 70 B)+6.0 pt
지식·추론MMLU71.1 %67–68 % (공개 보고)≈ +3 pt
대화 품질MT-Bench Avg.8.35 / 10 (8.76 DPO)6.86+1.5 ~ 2 pt
안전Do-Not-Answer97.899.4(LL2-7B), ChatGPT 97.7=ChatGPT, >GPT-4

표는 논문에 직접 보고된 수치만 사용했으며, “—”는 동일 지표가 공개되지 않은 경우다.


3. 저자들이 ‘성공의 증거’로 삼는 포인트

  1. 스케일링 법칙 검증 소형(1 e17 FLOPs) → 67 B(3 e20 FLOPs)까지 BPB 예측 오차 ≤ 0.1로 일관성 유지, “작은 실험으로 초대형 모델을 설계할 수 있다”는 점을 실측으로 입증 .

  2. 범용 모델이 특화 모델을 추월 코드(Table 15)·수학(Table 16) 특화 SOTA들과 어깨를 나란히 혹은 앞섬 ― 추가 데이터나 툴-통합 없이도 pass@1 73.8 %, GSM8K 86.7 % 달성 .

  3. 대화·다국어 모두 1 티어 MT-Bench 8.35, AlignBench 전체 6.69 (중국어)로 GPT-3.5 ≈, GPT-4 다음 등급 확보 .

  4. 안전·윤리 자체 2,400 문항 + Do-Not-Answer에서 상용 모델 대비 동급 이상 안전성 확보 .

  5. 실제 배포 난이도 고려 Grouped-Query Attention·RMSNorm 구조와 2-step LR scheduler로 inference 비용과 재학습 편의까지 검증 .


4. 결과가 의미하는 바

  • 정량적 : 동일 예산에서 파라미터를 ‘적게’ 쓰고도 SOTA 달성이 가능함을 숫자로 증명.
  • 정성적 : “스케일링 불확실성”과 “튜닝 운빨”을 제거, 재현성과 안전성이라는 오픈소스 LLM 난제를 동시에 해결.
  • 실무 관점 : FLOPs 기반 식 하나로 모델·데이터·하이퍼파라미터 선택을 자동화 → 연구·산업 양쪽 모두 설계 비용을 대폭 절감.

Bottom line : 저자들은 “과학적 스케일링 + 고품질 코퍼스” 로 훈련한 DeepSeek 67 B 가 결과적으로 (1) 더 빠르고, (2) 더 똑똑하며, (3) 더 안전 하다는 사실을 실험으로 뚜렷이 보여준다.

프롬프트 1.4.2 (비판적 비교)

PLAINTEXT
"제안된 방법론은 논문에서 언급된 주요 베이스라인 및 SOTA(State-of-the-Art) 모델들과 비교하여 어떤 성능을 보이는가? 저자들의 우월성 주장을 가장 강력하게 뒷받침하는 특정 결과나 비교 지점을 식별해 줘. 반대로, 제안된 방법론이 경쟁 모델을 능가하지 못했거나 개선 효과가 미미했던 결과는 없는지 찾아봐. 만약 있다면, 저자들은 이러한 경우에 대해 어떤 이유를 제시하는가?"
클릭하여 더 보기

결론 먼저 (TL;DR)

DeepSeek LLM 67 B코드·수학·다국어·대화에서 공개 SOTA(LLaMA-2 70 B, CodeLlama 34 B, MetaMath 70 B 등)를 눈에 띄게 추월하지만, **안전성·일부 영어 지식 지표·모델 경량 변형(7 B)**에서는 절대 우위가 아니다. 저자들은 “데이터·컴퓨트 배분이 달라서 생긴 한계”라거나 “후처리(DPO)-단계 trade-off”로 설명한다.


1. 주요 베이스라인 대비 성능 스냅숏

영역 (지표)DeepSeek 67 B주 베이스라인Δ (↑ 유리)최강 논거 포인트
코드
HumanEval pass@1
73.8 %CodeLlama 34 B: 73.2 %
WizardCoder 34 B: 73.2 %
+0.6 pt vs 특화 SOTA범용 67 B가 코드-특화 34 B와 동률 이상
수학
GSM8K
84.1 %WizardMath 70 B: 81.6 %+2.5 pt특화 70 B 모델보다 높은 정답률
Tool reasoning
GSM8K (Tool-Aided)
86.7 %ToRA-Code 34 B: 80.7 %+6.0 pt코드 툴 통합 시도에서도 격차 확대
추론·지식
MMLU
71.1 %LLaMA-2 70 B: ≈ 67–68 %+3 pt대형 오픈소스 기본 모델 대비 향상
대화 품질
MT-Bench (↑)
8.35|8.76★ (DPO)LLaMA-2-Chat 70 B: 6.86+1.5 ~ 2 ptGPT-3.5 동급, 오픈소스 최상위
중국어 QA
AlignBench (↑)
1 위 오픈소스, GPT-4 다음ChatGPT 4.71+0.08 pt다국어 우월성 입증
안전성
Do-Not-Answer (↑)
97.8 점LLaMA-2-7 B-Chat: 99.4
ChatGPT: 97.7
-1.6 pt vs 최고치“상용 수준 안전”이지만 최대치는 아님

★ DPO (Direct Preference Optimization) 후.


2. 우월성 주장을 가장 잘 뒷받침하는 결과

  1. 코드·수학 특화 모델 추월 범용 DeepSeek 67 B가 CodeLlama 34 B·WizardCoder 34 B(코드)와 MetaMath 70 B·WizardMath 70 B(수학)를 모두 능가한다 → “스케일링 식 하나로 특화 데이터 없이 SOTA 달성” .

  2. MT-Bench 8.76 (DPO) → GPT-3.5 수준 오픈소스 모델 중 최고, 대화형 태스크에서도 범용성 검증 .

  3. 예측 정확한 스케일링 실증 소형 IsoFLOP 곡선으로 67 B BPB 오차 ≤ 0.1 입증 → “작은 실험으로 초대형 모델 성능까지 맞힌다” .


3. 우위를 보이지 못한 또는 미미한 지점

항목DeepSeek 결과경쟁 대비저자 설명
Do-Not-Answer Top-197.8 (2 위)LLaMA-2-7 B-Chat 99.4 > DeepSeekLLaMA-2 7 B가 “거의 모든 요청을 거부”하는 보수적 필터라 점수가 높다; DeepSeek은 Safe + Utility 균형을 택했다.
HumanEval (DPO 후)71.3 %(↓ 2.5 pt)DPO 전 73.8DPO가 “대화 일관성 향상 ↔ 코드 정확도 소폭 감소”라는 trade-off 유발.
영어 지식 퀴즈류
(TriviaQA, NQ)
미세 상승 (+1 ~ 2 pt)GPT-3.5 > DeepSeek퀴즈형·지식 기반 태스크는 “대화 데이터 비중 증가로 이득이 제한적”이라고 언급.
경량 7 B 변형LeetCode 4.7 % vs 17.5 %(67 B)동일 규모 LLaMA-2 7 B와 격차 작음작은 모델은 다국어 충돌·데이터 부족 영향이 더 커서 스케일링 식만으로 극복 어렵다고 논의 .

4. 저자 측 해석 (요약)

  • 안전 점수 열세 → “거부율을 높여 점수를 올릴 수 있으나 실용성을 희생하므로 의도적으로 균형 선택”
  • DPO 후 일부 지표 하락 → “대화 품질과 코드·수학 성능 간 자연스러운 trade-off”
  • 7 B 약세·영어 지식 근소 개선 → “고품질 다국어 데이터가 크면 작을수록 충돌을 일으켜 학습 효율 저하”
  • MT-Bench·AlignBench를 제외한 GPT-4 수준 미달 → “스케일링 한계(C ≈ 3 e²⁰ FLOPs)·데이터 질은 충분치 않으며 추후 토큰 수 확대 계획” (Discussion 5.5)

📌 정리 한마디

DeepSeek LLM은 FLOPs/token 스케일링 법칙을 통해 기존 베이스라인보다 *“덜 큰 파라미터로 더 높은 코드·수학·다국어·대화 성능”*을 보여 주지만, 안전성 최고 점수·영미 지식·경량 버전에서는 여전히 개선 여지가 남아 있다. 저자들은 이를 보수적 필터·데이터 믹스·DPO trade-off로 해석하며, 추가 토큰·후속 튜닝으로 해결 가능하다고 전망한다.

프롬프트 1.5.1 (언급된 한계와 잠재적 한계)

PLAINTEXT
"저자들이 논문에서 명시적으로 인정한 한계점, 약점, 또는 실패 사례(failure modes)는 무엇인가? 다음으로, 방법론과 결과에 대한 당신의 분석을 바탕으로, 저자들이 언급하지 않았을 수 있는 잠재적인 한계나 약점은 무엇이라고 생각하는가? (예: 강력한 가정에 대한 의존성, 확장성 문제, 높은 연산 비용, 일반화의 한계, 잠재적인 부정적 사회 영향 등)"
클릭하여 더 보기

🧭 한눈에 보는 결론

  1. 저자들이 직접 인정한 한계는 ▲지식 업데이트 중단 ▲환각 / 검증 안된 조언 ▲중국어 데이터 부족 → 중화권 주제 성능 저하 ▲중 · 영어 외 언어 취약 ▲HellaSwag 등 클로즈-형 태스크 성능 하락 ▲7 B 모델의 시스템 프롬프트 처리 실패 ▲수학·코드 능력이 특정 유형(알gebra, 완성형)으로 편향됨이다.
  2. 추가로 예상되는 잠재적 약점은 ▲파워-law 스케일링 가정의 범용성 ▲FLOPs/token 지표의 장문·다중모달 적용 한계 ▲3 × 10²⁰ FLOPs에 달하는 막대한 학습 비용 ▲웹 스크랩 데이터로 인한 편향·저작권·프라이버시 리스크 ▲거부형 안전평가의 불충분성(탈주·프롬프트 주입 미검증) ▲67 B 추론 비용·지연 문제 ▲시간 흐름에 따른 지식 노화이다.

1. 저자가 명시한 한계 (Explicit)

#내용근거
1지식 갱신 불가 & 환각 – 사후 업데이트가 없어 사실 오류·환각 가능성 존재
2중국어 데이터 미흡 – 초기 중국어 코퍼스가 불완전, 일부 중국어 주제 성능 저하
3다국어 범위 제한 – 중·영어 외 언어 성능이 “delicate” 하다고 주의
4특정 태스크 성능 하락 – HellaSwag 등 클로즈·문장완성류는 파인튜닝 후 오히려 감소
5소형 모델(7 B) 한계 – 시스템 프롬프트 추가 시 MT-Bench 7.15 → 7.11 로 감소
6수학·코드 편향 – 개선이 “코드 완성·기초 대수”에 치우쳐 있으며 데이터 다변화 필요

2. 저자가 언급하지 않은 잠재적 한계 (Implicit)

범주잠재적 약점·설명왜 문제인가
스케일링 가정M∝C^0.524 power-law가 Transformer decoder·FP16 구간에서만 검증됨 → MoE·멀티모달·저정밀(𝑞4)로 바뀌면 무효 가능설계 불확실성 재발
FLOPs/token 지표임베딩 FLOPs 제외 + 평균 시퀀스 2 K 토큰 가정 → 32 K-context·Retrieval-Aug LLM에선 오차 ↑장문 컨텍스트로 확장 시 오배분 위험
연산·환경 비용3 e20 FLOPs ≈ A100 × 3 000 GPU-day → 전력 ≈ 450 MWh(산술)연구 장벽·탄소 발자국
데이터 편향·저작권2 T 웹 스크랩에 대한 편향·저작권·개인정보 필터링 절차 불명실제 서비스·법률 리스크
안전 평가 범위Do-Not-Answer 97.8 점은 “거부 정확도” 기준 → 탈옥(prompt injection)·정밀 해킹 시나리오 미측정실제 배포 안전 보장 부족
추론 비용·지연67 B 파라미터 + 4 K context → 모바일·엣지 불가, 클라우드에서도 $ / query 상승상용 배포 범위 제한
지식 노화2024Q1 데이터 고정 → 2025+ 사건·코드 API 변화 반영 불가실시간 질문에서 GPT-4-Turbo 등과 격차 확대

3. 핵심 인사이트

*저자들이 인정한 한계는 주로 **데이터 범위 및 일반 LLM 고질병(환각, 지식 노화)**에 집중되어 있다. 그러나 계산·스케일링 가정의 외삽 가능성, 실제 운영 비용, 안전·윤리·법률 측면은 상세 논의가 부족하다. 연구자·서비스 사업자는 위 잠재 리스크를 감안해 ▲스케일링 법칙 재검증 ▲장문·멀티모달 확장 실험 ▲편향·저작권 감식 파이프라인 ▲라이브 파인튜닝·RAG 통합 ▲실전 공격형 안전 평가 를 선행 검토하는 것이 바람직하다.

프롬프트 1.5.2 (미래 연구 궤적)

PLAINTEXT
"저자들이 제안하는 구체적인 향후 연구 방향은 무엇인가? 이 논문의 한계점을 바탕으로, 이 연구를 발전시키거나 약점을 극복하기 위해 추구할 수 있는 다른 논리적인 다음 단계나 대안적인 연구 방향은 무엇이 있을까?"
클릭하여 더 보기

TL;DR — 어디까지, 무엇을 더?

저자 로드맵은 ① 코드 인텔리전스·MoE sparse 모델 기술 리포트 공개, ② 2 T → ↑T 토큰 다국어·고품질 데이터 확장, ③ RL 기반 정합·안전성 강화 세 갈래다 . 추가 제안으로는 ④ 멀티모달·32 K+ 컨텍스트용 FLOPs/token 재검증, ⑤ 저비용(양자화·LoRA)-친화 스케일링 법칙 탐색, ⑥ RAG·온라인 학습으로 지식 노화 해결 등이 유망하다.


1. 저자들이 밝힌 향후 연구 과제

분류구체적 계획근거
모델 아키텍처“code-intelligence & MoE sparse 모델 기술 리포트 곧 공개”
데이터 확장“더 크고 품질 높은 데이터셋 구축 중 → 추론·중국어·수학·코드 능력 추가 향상 목표”
정렬·안전성“RL(π-RLHF 등)로 복합 추론·안전성 동시 강화”

2. 논리적 다음 단계 — 우리가 제안하는 6 가지 트랙

#제안 트랙왜 필요한가?구체적 실험 아이디어
① 멀티모달·장문 스케일링FLOPs/token 법칙은 _텍스트 2 K seq_에 한정. 32 K+ / 이미지·오디오 입력에선 어텐션 FLOPs가 급증.• 8-점 IsoFLOP을 GQA·FMoE·LLava-류 아키텍처로 재측정 → 지수 변화 확인
② 저비용 학습 법칙학습 ≈ 3×10²⁰ FLOPs → A100 3 천 GPU-day. 중소 연구실은 불가.q4-bit GELU quant + CE-LoRA 로 C 10⁻¹ 수준에서 동일 BPB 달성 가능성 탐색
③ 온라인·RAG 혼합 학습“지식 노화·환각” 한계 .Retrieval-Aug Pre-training(RAPT) + 주간 incremental crawl → 스케일링 곡선 안정성 테스트
④ 고언어 다양성 데이터중·영어 편중 → 기타 언어 delicate .• Common Crawl + OSCAR 다국어 5 T 토큰 → 품질별 스케일링 지수 vs 언어군 분석
⑤ 실전 안전성 벤치Do-Not-Answer는 거부율 지표만 측정.AdvBench(탈옥·주입) + Live Jailbreak 평가 → RL-safety vs 거부율 trade-off 곡선 작성
⑥ 지연·에너지 최적화67 B 추론 비용이 상용화 걸림돌.Hydragen-류 프리픽스 배칭 + Sparsity + KV-compression → 10× latency↓ 실측

3. 큰 그림 — 연구 궤적 로드맵

  flowchart LR
    A(데이터 품질·규모 ↑) -->|스케일링 재측정| B(FLOPs/token 공식 v2)
    B --> C1(멀티모달 확장)
    B --> C2(저비용 친화)
    C1 & C2 --> D(67 B dense ↔ MoE sparse)
    D --> E(실전 시스템: Hydragen·vLLM)
    E --> F(RL·RAG·Online Update)

요약 한 문장 “스케일링 법칙 → MoE/양자화 → 실시간·멀티모달 → 안전·지식 최신화” 순으로 단계적 확장을 설계하면, DeepSeek 계열 LLM은 더 싸고, 더 길고, 더 똑똑하며, 시의성까지 갖춘 차세대 오픈모델로 진화할 수 있다.

라이선스

저작자: Jaehun Ryu

링크: https://jaehun.me/posts/deepseek-llm-scaling-open-source-language-models-with-longtermism/

라이선스: CC BY 4.0

이 저작물은 크리에이티브 커먼즈 저작자표시 4.0 국제 라이선스에 따라 이용할 수 있습니다. 출처를 밝히면 상업적 목적을 포함해 자유롭게 이용 가능합니다.

댓글

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키