[논문리뷰] Peri-LN: Revisiting Normalization Layer in the Transformer Architecture
논문 링크 Peri-LayerNorm: Post-LN와 Pre-LN을 넘어서는 세 번째 선택지 한 줄 요약 (TL;DR) Residual 직후에 LayerNorm을 한 번 더 넣는 “Peri-LayerNorm(Peri-LN)” 구조만으로 — 400 M→3.2 B 파라미터 LLM …
24 분
'Training Stability' 태그의 모든 글
검색어를 입력하세요