DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence
논문 링크 DeepSeek-Coder: GPT-3.5 Turbo를 추월한 최초의 오픈소스 코드 LLM AI 실무자가 꿈꿔 온 **“상용 수준을 넘어서는 공개 코드 모델”**이 마침내 등장했다. DeepSeek-Coder는 레포지터리 전역 의존성 학습, …
모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.
논문 링크 DeepSeek-Coder: GPT-3.5 Turbo를 추월한 최초의 오픈소스 코드 LLM AI 실무자가 꿈꿔 온 **“상용 수준을 넘어서는 공개 코드 모델”**이 마침내 등장했다. DeepSeek-Coder는 레포지터리 전역 의존성 학습, …
논문 링크 한 줄 요약 (TL;DR) ESFT (Expert-Specialized Fine-Tuning)은 MoE LLM의 상위 5 ~ 15 % 전문가만 선택적으로 학습해 파라미터·스토리지 90 % 절감과 FFT급 성능을 동시에 달성한, _Sparse …
논문 링크 한 줄 요약 (TL;DR) FLOPs / token로 재정의한 DeepSeek Scaling Law 하나로 모델·데이터·하이퍼파라미터를 자동 결정하여, 2 T token만으로 67 B 파라미터 모델이 LLaMA-2 70 B를 코드·수학·대 …
논문 링크 DeepSeekMoE 정리 – Dense 성능을 40 % FLOPs로 끌어낸 ‘세분화-전문가’ 트릭 한 줄 요약 (TL;DR) Fine-Grained Expert Segmentation (FGES) + Shared Experts (SEI) …
논문 링크 📝 한 줄 요약 (TL;DR) DreamCraft3D는 2-스테이지 3D 생성 파이프라인과 *Bootstrapped Score Distillation(BSD)*라는 비밀 병기를 결합해, 단 한 장의 2D 이미지(또는 텍스트 프롬프트) …
논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. 표준 오 …
검색어를 입력하세요