![[논문리뷰] SGLang: Efficient Execution of Structured Language Model Programs](https://cdn.bytez.com/mobilePapers/v2/neurips/94872/images/20-0.png)
[논문리뷰] SGLang: Efficient Execution of Structured Language Model Programs
논문 링크 SGLang & RadixAttention: “LM 프로그램” 시대의 실행 최적화, 어떻게 6.4× 빨라졌나 TL;DR 언어–런타임 공동 설계(co-design) 위에 RadixAttention(라딕스 트리 기반 KV 캐시+스케줄 …
41 분
SGLang
RadixAttention
KV 캐시
LLM Inference
프로그래밍 언어와 런타임
Constrained Decoding
Speculative Execution
Distributed Inference
Prompt Optimization
멀티모달