[논문리뷰] DroidSpeak: KV Cache Sharing for Cross-LLM Communication and Multi-LLM Serving
논문 링크 DroidSpeak: 교차-LLM Prefix-KV 재사용으로 프리필 지연을 1.7–3.1× 줄이는 방법 TL;DR (한 줄 요약) 동일 아키텍처이되 가중치가 다른 LLM들 사이에서, 보내는 모델의 prefix KV를 받는 모델이 연속층 부 …
38 분
2411.02820v4
droidspeak
교차-LLM-KV-재사용 (cross-llm-kv-reuse)
prefix-kv / e-cache
연속층-부분-재계산 (contiguous-layer-recompute)