![[논문리뷰] Inference-Time Hyper-Scaling with KV Cache Compression](https://cdn-thumbnails.huggingface.co/social-thumbnails/papers/2506.05345/gradient.png)
[논문리뷰] Inference-Time Hyper-Scaling with KV Cache Compression
논문 링크 Dynamic Memory Sparsification(DMS): KV 캐시 8× 압축으로 LLM 하이퍼-스케일링을 현실로 한 줄 요약 (TL;DR) 1 K 스텝만의 경량 재적합과 지연 퇴출 전략을 결합한 DMS는 KV 캐시를 최대 8× 압축하면서도 Qwen-R1 32B …
논문 링크 Dynamic Memory Sparsification(DMS): KV 캐시 8× 압축으로 LLM 하이퍼-스케일링을 현실로 한 줄 요약 (TL;DR) 1 K 스텝만의 경량 재적합과 지연 퇴출 전략을 결합한 DMS는 KV 캐시를 최대 8× 압축하면서도 Qwen-R1 32B …
논문 링크 Hydragen: 공유 프리픽스가 있는 대규모 배치를 32 × 빠르게 디코딩하는 비밀 병기 한 줄 요약 (TL;DR) Softmax 분모 재스케일링으로 프리픽스-서픽스를 분해해 Code-Llama-13 B 기준 vLLM보다 최대 32배 빠르게, 동일 출력을 보장하며 장문·대규 …
논문 링크 Kimi K2: 오픈소스 LLM이 에이전트 지능을 향해 내딛은 한 걸음 TL;DR MuonClip 프리트레인 + 대규모 에이전틱 툴 데이터 + Verifiable‑RL 정렬의 3‑단계 파이프라인으로, Kimi K2는 τ²‑Bench 66.1·SWE‑bench 65.8 등에서 …
논문 링크 Qwen 3: 생각량을 조절하는 거대 MoE 언어모델의 진화 한 줄 요약 (TL;DR) Qwen 3는 “얼마나 깊게 생각할지”를 토큰 수치로 직접 제어할 수 있는 Thinking Budget과 128-전문가 MoE 설계를 결합해, 활성 파라미터 22 B 만으로도 기존 100 …
지난 “K-뷰티, 새로운 도약의 기로에 설까?“라는 글을 통해 K-뷰티가 맞이한 패러다임의 변화와 새로운 기회에 대해 이야기했습니다. 기술과 데이터, 그리고 헬스케어의 결합이 어떻게 뷰티 산업의 지형을 바꾸고 있는지 살펴보았죠.
검색어를 입력하세요