Llm-Systems

'Llm-Systems' 카테고리의 모든 글

총 3개의 글
시간순 정렬

[논문리뷰]Towards Efficient and Practical GPU Multitasking in the Era of LLM

논문 링크 “GPU에 OS를 입히자”: LLM 시대를 위한 GPU 멀티태스킹 OS 레이어 의 제안 한 줄 요약 (TL;DR) LLM 서빙에서 GPU는 종종 ≤10%대 활용 에 머무르고(현장 관찰), 부하는 수분 단위 3× 로 요동한다. 저자는 커널-그 …

39 분
2508.08448v1 GPU-OS Multitasking CUDA Virtual Memory GPU Scheduling Multi-Tenancy Kernel-Level Sharing Memory Multiplexing Guaranteed & Preemptible Utility Scheduling Kubernetes DRA NCCL Virtualization LLM Inference System Design Resource Isolation

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키