DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
논문 링크 DeepSeek-Coder-V2: 오픈소스 코드-LLM이 GPT-4 급으로 뛰어오른 순간 한 줄 요약 (TL;DR) 236 B 파라미터 MoE + 10.2 T 토큰 + YaRN 128 K 컨텍스트 만으로, **HumanEval 90.2 …
30 분
2406.11931v1
Code LLM
Mixture of Experts
Open Source
Transformer
Long Context
HumanEval
Math Reasoning
GPT-4 Alternative
Model Scaling
YaRN
FIM (Fill In Middle)
Instruction Tuning
RLHF
Language Modeling