게시글

모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.

총 511개의 게시글
총 86페이지

Accelerated Test-Time Scaling with Model-Free Speculative Sampling

논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. 표준 오 …

27 분
2506.04708v1 STAND Speculative Decoding Test-Time Scaling Inference Acceleration Logit N-gram Gumbel-Top-K Large Language Models GPU Efficiency AI Research Review Performance Optimization

KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

논문 링크 ⚡️TL;DR KVzip는 LLM의 KV 캐시를 한 번 압축해도 이후 모든 질의 · 세션에서 재사용할 수 있도록 설계된 query-agnostic 캐시 컴프레서다. 그 결과 정확도 손실 ≤ 3 pp를 유지하면서 **레이턴시 2 × ↓, 메모 …

24 분
2505.23416v1 kvzip kv-cache long-context cache-compression memory-optimization latency-reduction flashattention llm large-language-models ai-systems nlp

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키