Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models
논문 링크 한 줄 요약 (TL;DR) ESFT (Expert-Specialized Fine-Tuning)은 MoE LLM의 상위 5 ~ 15 % 전문가만 선택적으로 학습해 파라미터·스토리지 90 % 절감과 FFT급 성능을 동시에 달성한, _Sparse …
26 분
2407.01906v2
ESFT
MoE
SparseLLM
ParameterEfficientTuning
ExpertSelection
DeepSeekV2