[논문리뷰]Towards Efficient and Practical GPU Multitasking in the Era of LLM
논문 링크 “GPU에 OS를 입히자”: LLM 시대를 위한 GPU 멀티태스킹 OS 레이어 의 제안 한 줄 요약 (TL;DR) LLM 서빙에서 GPU는 종종 ≤10%대 활용 에 머무르고(현장 관찰), 부하는 수분 단위 3× 로 요동한다. 저자는 커널-그 …
39 분
2508.08448v1
GPU-OS
Multitasking
CUDA Virtual Memory
GPU Scheduling
Multi-Tenancy
Kernel-Level Sharing
Memory Multiplexing
Guaranteed & Preemptible
Utility Scheduling
Kubernetes DRA
NCCL Virtualization
LLM Inference
System Design
Resource Isolation
![[논문리뷰] Marconi: Prefix Caching for the Era of Hybrid LLMs](https://pbs.twimg.com/media/GdyLXO9W4AADox0.jpg)