[논문리뷰] Llama-Nemotron: Efficient Reasoning Models
논문 링크 Hydragen: 공유 프리픽스가 있는 대규모 배치를 32 × 빠르게 디코딩하는 비밀 병기 한 줄 요약 (TL;DR) Softmax 분모 재스케일링으로 프리픽스-서픽스를 분해해 Code-Llama-13 B 기준 vLLM보다 최대 32배 빠르 …
26 분
2505.00949v4
Hydragen
Prefix Caching
Shared Prefix Decoding
Efficient Inference
Softmax Decomposition
LLM Serving
Attention Optimization
FlashAttention
vLLM
Batch Inference
Matrix-Matrix GEMM
TensorCore Optimization