Accelerated Test-Time Scaling with Model-Free Speculative Sampling
논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. …
'With-Gpt-O3' 카테고리의 모든 글
논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. …
논문 링크 ⚡️TL;DR KVzip는 LLM의 KV 캐시를 한 번 압축해도 이후 모든 질의 · 세션에서 재사용할 수 있도록 설계된 query-agnostic 캐시 컴프레서다. 그 결과 정확도 손실 ≤ 3 pp를 유지하면서 **레이턴시 2 × ↓, 메모리 60–394 × ↓**를 동시에 …
논문 링크 ⚡️ REFORM: 100만 토큰도 잊지 않는 LLM 추론 파이프라인 한 줄 요약 (TL;DR) REFORM은 압축(Compress) → 선별(Gather) → 선택적 재계산(Recompute) 세 단계를 하나로 묶어, 단일 H100 GPU에서도 100 만 토큰 문맥을 망각 …
논문 링크 📝 Mamba Drafters: 선형 SSM으로 외부 Speculative Decoding SOTA 다시 쓰기 한 줄 요약 (TL;DR) Transformer 대신 Mamba SSM을 외부 드래프터로 쓰고, 트리 초안 + UCB …
논문 링크 Gemini 2.5: 1 M 토큰·멀티모달·초저지연 LLM의 비밀을 벗기다 한 줄 요약 (TL;DR) Sparse-MoE + Slice-Elastic TPU 학습 + Flash Distillation 덕분에, Gemini 2.5는 1 M 토큰 컨텍스트와 비디오·오디오까지 통합 …
검색어를 입력하세요