DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
논문 링크 DeepSeekMoE 정리 – Dense 성능을 40 % FLOPs로 끌어낸 ‘세분화-전문가’ 트릭 한 줄 요약 (TL;DR) Fine-Grained Expert Segmentation (FGES) + Shared Experts (SEI) 로 FFN-MoE …
36 분
'2401.06066v1' 태그의 모든 글
검색어를 입력하세요