Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models
논문 링크 한 줄 요약 (TL;DR) ESFT (Expert-Specialized Fine-Tuning)은 MoE LLM의 상위 5 ~ 15 % 전문가만 선택적으로 학습해 파라미터·스토리지 90 % 절감과 FFT급 성능을 동시에 달성한, _Sparse LLM 시대의 새로운 PEFT 표 …