DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
논문 링크 한 줄 요약 (TL;DR) FLOPs / token로 재정의한 DeepSeek Scaling Law 하나로 모델·데이터·하이퍼파라미터를 자동 결정하여, 2 T token만으로 67 B 파라미터 모델이 LLaMA-2 70 B를 코드·수학·대화·다국어에서 추월했다.
25 분
'2401.02954v1' 태그의 모든 글
검색어를 입력하세요