2505.23416v1

'2505.23416v1' 태그의 모든 글

총 1개의 글

시간순 정렬

KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

논문 링크 ⚡️TL;DR KVzip는 LLM의 KV 캐시를 한 번 압축해도 이후 모든 질의 · 세션에서 재사용할 수 있도록 설계된 query-agnostic 캐시 컴프레서다. 그 결과 정확도 손실 ≤ 3 pp를 유지하면서 **레이턴시 2 × ↓, 메모 …

2025년 06월 26일

2505.23416v1 kvzip kv-cache long-context cache-compression memory-optimization latency-reduction flashattention llm large-language-models ai-systems nlp