With-Gpt-O3

'With-Gpt-O3' 카테고리의 모든 글

총 5개의 글

시간순 정렬

논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. 표준 오 …

논문 링크 ⚡️TL;DR KVzip는 LLM의 KV 캐시를 한 번 압축해도 이후 모든 질의 · 세션에서 재사용할 수 있도록 설계된 query-agnostic 캐시 컴프레서다. 그 결과 정확도 손실 ≤ 3 pp를 유지하면서 **레이턴시 2 × ↓, 메모 …

논문 링크 ⚡️ REFORM: 100만 토큰도 잊지 않는 LLM 추론 파이프라인 한 줄 요약 (TL;DR) REFORM은 압축(Compress) → 선별(Gather) → 선택적 재계산(Recompute) 세 단계를 하나로 묶어, 단일 H100 GPU …

논문 링크 📝 Mamba Drafters: 선형 SSM으로 외부 Speculative Decoding SOTA 다시 쓰기 한 줄 요약 (TL;DR) Transformer 대신 Mamba SSM을 외부 드래프터로 쓰고, 트리 초안 + UCB 탐색을 결합 …

논문 링크 Gemini 2.5: 1 M 토큰·멀티모달·초저지연 LLM의 비밀을 벗기다 한 줄 요약 (TL;DR) Sparse-MoE + Slice-Elastic TPU 학습 + Flash Distillation 덕분에, Gemini 2.5는 1 M 토 …