Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
논문 링크 Native Sparse Attention (NSA) — 64 k 토큰도 11× 빠르게, 정확도는 그대로 한 줄 요약 (TL;DR) NSA는 ‘압축 → 선택 → 슬라이딩’ 3 분기 희소 어텐션과 GQA/MQA-친화 커널을 결합해 64 k 컨텍스트에서 디코딩 속도를 11.6 …
31 분
'Deep Learning' 태그의 모든 글
검색어를 입력하세요