![[논문리뷰] Marconi: Prefix Caching for the Era of Hybrid LLMs](https://pbs.twimg.com/media/GdyLXO9W4AADox0.jpg)
[논문리뷰] Marconi: Prefix Caching for the Era of Hybrid LLMs
논문 링크 Marconi: 하이브리드 LLM 시대의 프리픽스 캐싱을 다시 설계하다 한 줄 요약 (TL;DR) Marconi는 하이브리드 LLM(Attention+SSM) 서빙에서 재사용 가능성이 높은 접두만 선별 입장(admission) 하고, …
39 분
2411.19379v3
Marconi
Hybrid LLM
Prefix Caching
Inference Optimization
FLOP-aware Scheduling
SSM
vLLM
Serving Efficiency