게시글

모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.

총 515개의 게시글

총 86페이지

논문 링크 한 줄 요약 (TL;DR) ESFT (Expert-Specialized Fine-Tuning)은 MoE LLM의 상위 5 ~ 15 % 전문가만 선택적으로 학습해 파라미터·스토리지 90 % 절감과 FFT급 성능을 동시에 달성한, _Sparse …

논문 링크 한 줄 요약 (TL;DR) FLOPs / token로 재정의한 DeepSeek Scaling Law 하나로 모델·데이터·하이퍼파라미터를 자동 결정하여, 2 T token만으로 67 B 파라미터 모델이 LLaMA-2 70 B를 코드·수학·대 …

논문 링크 DeepSeekMoE 정리 – Dense 성능을 40 % FLOPs로 끌어낸 ‘세분화-전문가’ 트릭 한 줄 요약 (TL;DR) Fine-Grained Expert Segmentation (FGES) + Shared Experts (SEI) …

논문 링크 📝 한 줄 요약 (TL;DR) DreamCraft3D는 2-스테이지 3D 생성 파이프라인과 *Bootstrapped Score Distillation(BSD)*라는 비밀 병기를 결합해, 단 한 장의 2D 이미지(또는 텍스트 프롬프트) …

논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. 표준 오 …

논문 링크 ⚡️TL;DR KVzip는 LLM의 KV 캐시를 한 번 압축해도 이후 모든 질의 · 세션에서 재사용할 수 있도록 설계된 query-agnostic 캐시 컴프레서다. 그 결과 정확도 손실 ≤ 3 pp를 유지하면서 **레이턴시 2 × ↓, 메모 …