[논문리뷰] Massive Activations in Large Language Models
논문 링크 Massive Activations, Hidden Biases: 재해석된 Self-Attention의 비밀 한 줄 요약 (TL;DR) 수천만 개 중 4–10 개의 초거대 스칼라(×10 000) 가 LLM · ViT의 성능을 사실상 ‘혼자서’ 지탱한다. 이 스칼라는 입력과 무관 …
24 분
'SelfAttention' 태그의 모든 글
검색어를 입력하세요