DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
논문 링크 DeepSeek-R1: 공개 RL-Only 파이프라인으로 o1 급 추론을 재현하다 TL;DR** DeepSeek-R1은 critic-less GRPO RL + 소량 Cold-Start SFT + 다단계 RL/SFT + 지식 증류 파이프라인으로, AIME-24 pass@1 …
30 분
'Math Reasoning' 태그의 모든 글
논문 링크 DeepSeek-R1: 공개 RL-Only 파이프라인으로 o1 급 추론을 재현하다 TL;DR** DeepSeek-R1은 critic-less GRPO RL + 소량 Cold-Start SFT + 다단계 RL/SFT + 지식 증류 파이프라인으로, AIME-24 pass@1 …
논문 링크 DeepSeek-Coder-V2: 오픈소스 코드-LLM이 GPT-4 급으로 뛰어오른 순간 한 줄 요약 (TL;DR) 236 B 파라미터 MoE + 10.2 T 토큰 + YaRN 128 K 컨텍스트 만으로, **HumanEval 90.2 %·MATH 75.7 %**를 기록해 오 …
검색어를 입력하세요