![[논문리뷰] Inference-Time Hyper-Scaling with KV Cache Compression](https://cdn-thumbnails.huggingface.co/social-thumbnails/papers/2506.05345/gradient.png)
[논문리뷰] Inference-Time Hyper-Scaling with KV Cache Compression
논문 링크 Dynamic Memory Sparsification(DMS): KV 캐시 8× 압축으로 LLM 하이퍼-스케일링을 현실로 한 줄 요약 (TL;DR) 1 K 스텝만의 경량 재적합과 지연 퇴출 전략을 결합한 DMS는 KV 캐시를 최대 8× 압축하면서도 Qwen-R1 32B …
26 분
'2506.05345v1' 태그의 모든 글
검색어를 입력하세요