Accelerated Test-Time Scaling with Model-Free Speculative Sampling
논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. 표준 오 …
모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.
논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. 표준 오 …
논문 링크 ⚡️TL;DR KVzip는 LLM의 KV 캐시를 한 번 압축해도 이후 모든 질의 · 세션에서 재사용할 수 있도록 설계된 query-agnostic 캐시 컴프레서다. 그 결과 정확도 손실 ≤ 3 pp를 유지하면서 **레이턴시 2 × ↓, 메모 …
논문 링크 ⚡️ REFORM: 100만 토큰도 잊지 않는 LLM 추론 파이프라인 한 줄 요약 (TL;DR) REFORM은 압축(Compress) → 선별(Gather) → 선택적 재계산(Recompute) 세 단계를 하나로 묶어, 단일 H100 GPU …
논문 링크 📝 Mamba Drafters: 선형 SSM으로 외부 Speculative Decoding SOTA 다시 쓰기 한 줄 요약 (TL;DR) Transformer 대신 Mamba SSM을 외부 드래프터로 쓰고, 트리 초안 + UCB 탐색을 결합 …
논문 링크 Gemini 2.5: 1 M 토큰·멀티모달·초저지연 LLM의 비밀을 벗기다 한 줄 요약 (TL;DR) Sparse-MoE + Slice-Elastic TPU 학습 + Flash Distillation 덕분에, Gemini 2.5는 1 M 토 …
논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 LLM 추론 가속화를 위한 비동기식 KV 캐시 프리페칭 논 …
검색어를 입력하세요