Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts
논문 링크 한 줄 요약 (TL;DR) Loss-Free Balancing(LFB)은 auxiliary loss를 완전히 제거한 채, 전문가별 bias 한 줄 업데이트만으로 Mixture-of-Experts(MoE) 모델의 ‘로드 밸런스 ↔ 성능’ 딜레마를 깨고 **Perplexity ≈ …
28 분
'Loss-Free Learning' 태그의 모든 글
검색어를 입력하세요