![[논문리뷰] Inference-Time Hyper-Scaling with KV Cache Compression](https://cdn-thumbnails.huggingface.co/social-thumbnails/papers/2506.05345/gradient.png)
[논문리뷰] Inference-Time Hyper-Scaling with KV Cache Compression
논문 링크 Dynamic Memory Sparsification(DMS): KV 캐시 8× 압축으로 LLM 하이퍼-스케일링을 현실로 한 줄 요약 (TL;DR) 1 K 스텝만의 경량 재적합과 지연 퇴출 전략을 결합한 DMS는 KV 캐시를 최대 8× 압축하면서도 Qwen-R1 32B …
모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.
논문 링크 Dynamic Memory Sparsification(DMS): KV 캐시 8× 압축으로 LLM 하이퍼-스케일링을 현실로 한 줄 요약 (TL;DR) 1 K 스텝만의 경량 재적합과 지연 퇴출 전략을 결합한 DMS는 KV 캐시를 최대 8× 압축하면서도 Qwen-R1 32B …
논문 링크 Hydragen: 공유 프리픽스가 있는 대규모 배치를 32 × 빠르게 디코딩하는 비밀 병기 한 줄 요약 (TL;DR) Softmax 분모 재스케일링으로 프리픽스-서픽스를 분해해 Code-Llama-13 B 기준 vLLM보다 최대 32배 빠르게, 동일 출력을 보장하며 장문·대규 …
논문 링크 Kimi K2: 오픈소스 LLM이 에이전트 지능을 향해 내딛은 한 걸음 TL;DR MuonClip 프리트레인 + 대규모 에이전틱 툴 데이터 + Verifiable‑RL 정렬의 3‑단계 파이프라인으로, Kimi K2는 τ²‑Bench 66.1·SWE‑bench 65.8 등에서 …
논문 링크 Qwen 3: 생각량을 조절하는 거대 MoE 언어모델의 진화 한 줄 요약 (TL;DR) Qwen 3는 “얼마나 깊게 생각할지”를 토큰 수치로 직접 제어할 수 있는 Thinking Budget과 128-전문가 MoE 설계를 결합해, 활성 파라미터 22 B 만으로도 기존 100 …
지난 “K-뷰티, 새로운 도약의 기로에 설까?“라는 글을 통해 K-뷰티가 맞이한 패러다임의 변화와 새로운 기회에 대해 이야기했습니다. 기술과 데이터, 그리고 헬스케어의 결합이 어떻게 뷰티 산업의 지형을 바꾸고 있는지 살펴보았죠.
Jekyll에서 Hugo로의 마이그레이션 가이드 Jekyll에서 Hugo로 마이그레이션을 결심한 뒤, 많은 문서를 참고하면서도 생각보다 시행착오를 꽤 겪었습니다. 단순히 정적 사이트 생성기를 바꾸는 게 아니라, 생태계와 철학 자체가 다른 도구로 이동하는 일이었기 때문입니다.
검색어를 입력하세요