[논문리뷰] Peri-LN: Revisiting Normalization Layer in the Transformer Architecture
논문 링크 Peri-LayerNorm: Post-LN와 Pre-LN을 넘어서는 세 번째 선택지 한 줄 요약 (TL;DR) Residual 직후에 LayerNorm을 한 번 더 넣는 “Peri-LayerNorm(Peri-LN)” 구조만으로 — 400 …
24 분
2502.02732v3
LayerNorm
Transformer Architecture
Training Stability
Large Language Models
FP16 Training
Empirical Evaluation
Gradient Explosion
Benchmark Evaluation