[논문리뷰] Massive Activations in Large Language Models
논문 링크 Massive Activations, Hidden Biases: 재해석된 Self-Attention의 비밀 한 줄 요약 (TL;DR) 수천만 개 중 4–10 개의 초거대 스칼라(×10 000) 가 LLM · ViT의 성능을 사실상 ‘혼자서’ …
24 분
2402.17762v2
Transformer
SelfAttention
BiasMechanism
RepresentationLearning
Interpretability
NeuralMechanisms
Massive Activations
Explicit Attention Bias