게시글

모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.

총 515개의 게시글
총 86페이지

[논문리뷰]Towards Efficient and Practical GPU Multitasking in the Era of LLM

논문 링크 “GPU에 OS를 입히자”: LLM 시대를 위한 GPU 멀티태스킹 OS 레이어 의 제안 한 줄 요약 (TL;DR) LLM 서빙에서 GPU는 종종 ≤10%대 활용 에 머무르고(현장 관찰), 부하는 수분 단위 3× 로 요동한다. 저자는 커널-그 …

39 분
2508.08448v1 GPU-OS Multitasking CUDA Virtual Memory GPU Scheduling Multi-Tenancy Kernel-Level Sharing Memory Multiplexing Guaranteed & Preemptible Utility Scheduling Kubernetes DRA NCCL Virtualization LLM Inference System Design Resource Isolation

[논문리뷰] DroidSpeak: KV Cache Sharing for Cross-LLM Communication and Multi-LLM Serving

논문 링크 DroidSpeak: 교차-LLM Prefix-KV 재사용으로 프리필 지연을 1.7–3.1× 줄이는 방법 TL;DR (한 줄 요약) 동일 아키텍처이되 가중치가 다른 LLM들 사이에서, 보내는 모델의 prefix KV를 받는 모델이 연속층 부 …

38 분
2411.02820v4 droidspeak 교차-LLM-KV-재사용 (cross-llm-kv-reuse) prefix-kv / e-cache 연속층-부분-재계산 (contiguous-layer-recompute)
[논문리뷰] SGLang: Efficient Execution of Structured Language Model Programs

[논문리뷰] SGLang: Efficient Execution of Structured Language Model Programs

논문 링크 SGLang & RadixAttention: “LM 프로그램” 시대의 실행 최적화, 어떻게 6.4× 빨라졌나 TL;DR 언어–런타임 공동 설계(co-design) 위에 RadixAttention(라딕스 트리 기반 KV 캐시+스케줄 …

41 분
SGLang RadixAttention KV 캐시 LLM Inference 프로그래밍 언어와 런타임 Constrained Decoding Speculative Execution Distributed Inference Prompt Optimization 멀티모달
[논문리뷰] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

[논문리뷰] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

논문 링크 Structured State Space Duality: Mamba-2로 본 SSM↔Attention 통일과 2–8× 가속 한 줄 요약 (TL;DR) SSD(Structured State-Space Duality) 는 SSM과 마스킹 어텐션 …

42 분
Mamba Mamba-2 Structured State Space Duality SSD State Space Models SSM Transformer Attention Mechanism Long Context Efficient Training FlashAttention Sequence Modeling Scaling Laws Parallelism GPU Acceleration 2405.21060v1

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키