[논문리뷰] Llama-Nemotron: Efficient Reasoning Models논문 링크 Hydragen: 공유 프리픽스가 있는 대규모 배치를 32 × 빠르게 디코딩하는 비밀 병기 한 줄 요약 (TL;DR) Softmax 분모 재스케일링으로 프리픽스-서픽스를 분해해 Code-Llama-13 B 기준 vLLM보다 최대 32배 빠르게, 동일 출력을 보장하며 장문·대규 … 2025년 07월 29일 26 분