2506.19852v1

'2506.19852v1' 태그의 모든 글

총 2개의 글

시간순 정렬

논문 링크 NVIDIA Nemotron 3: 하이브리드 Mamba–Transformer MoE로 “정확도/처리량” 프런티어를 당기다 Nemotron 3 는 MoE 하이브리드 Mamba–Transformer, LatentMoE , MTP , NVFP4 …

논문 링크 Radial Attention: O(n log n) Sparse Attention with Energy Decay로 “긴 비디오”를 싸게 뽑기 한 줄 요약 (TL;DR) 사후(softmax 이후) attention 에너지가 거리(시간/공간) …