[논문리뷰] Inference-Time Hyper-Scaling with KV Cache Compression
논문 링크 Dynamic Memory Sparsification(DMS): KV 캐시 8× 압축으로 LLM 하이퍼-스케일링을 현실로 한 줄 요약 (TL;DR) 1 K 스텝만의 경량 재적합과 지연 퇴출 전략을 결합한 DMS는 KV 캐시를 최대 8× 압축 …
모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.
논문 링크 Dynamic Memory Sparsification(DMS): KV 캐시 8× 압축으로 LLM 하이퍼-스케일링을 현실로 한 줄 요약 (TL;DR) 1 K 스텝만의 경량 재적합과 지연 퇴출 전략을 결합한 DMS는 KV 캐시를 최대 8× 압축 …
논문 링크 Hydragen: 공유 프리픽스가 있는 대규모 배치를 32 × 빠르게 디코딩하는 비밀 병기 한 줄 요약 (TL;DR) Softmax 분모 재스케일링으로 프리픽스-서픽스를 분해해 Code-Llama-13 B 기준 vLLM보다 최대 32배 빠르 …
![[논문리뷰] KIMI K2: OPEN AGENTIC INTELLIGENCE](https://github.com/MoonshotAI/Kimi-K2/raw/main/figures/kimi-logo.png)
논문 링크 Kimi K2: 오픈소스 LLM이 에이전트 지능을 향해 내딛은 한 걸음 TL;DR MuonClip 프리트레인 + 대규모 에이전틱 툴 데이터 + Verifiable‑RL 정렬의 3‑단계 파이프라인으로, Kimi K2는 τ²‑Bench …
논문 링크 Qwen 3: 생각량을 조절하는 거대 MoE 언어모델의 진화 한 줄 요약 (TL;DR) Qwen 3는 “얼마나 깊게 생각할지”를 토큰 수치로 직접 제어할 수 있는 Thinking Budget과 128-전문가 MoE 설계를 결합해, 활성 파라 …

지난 “K-뷰티, 새로운 도약의 기로에 설까?“라는 글을 통해 K-뷰티가 맞이한 패러다임의 변화와 새로운 기회에 대해 이야기했습니다. 기술과 데이터, 그리고 헬스케어의 결합이 어떻게 뷰티 산업의 지형을 바꾸고 있는지 살펴보았죠. …
Jekyll에서 Hugo로의 마이그레이션 가이드 Jekyll에서 Hugo로 마이그레이션을 결심한 뒤, 많은 문서를 참고하면서도 생각보다 시행착오를 꽤 겪었습니다. 단순히 정적 사이트 생성기를 바꾸는 게 아니라, 생태계와 철학 자체가 다른 도구로 이동하 …
검색어를 입력하세요