Mixture-of-Experts

'Mixture-of-Experts' 태그의 모든 글

총 5개의 글
시간순 정렬
[논문리뷰] Helix Parallelism: Rethinking Sharding Strategies for Interactive Multi-Million-Token LLM Decoding

[논문리뷰] Helix Parallelism: Rethinking Sharding Strategies for Interactive Multi-Million-Token LLM Decoding

논문 링크 Helix Parallelism: 초장기 LLM 디코딩의 지연-처리량 벽을 깨다 한 줄 요약 (TL;DR) Helix Parallelism은 Attention과 FFN을 서로 다른 병렬화 전략으로 스케줄링해 KV 캐시 중복과 FFN 가중치 …

31 분
2505.09343v1 Helix Parallelism Tensor Parallelism KV Parallelism Mixture of Experts Grouped Query Attention (GQA) FlashAttention Parallelism for LLMs System-Aware ML Efficient Transformer Inference Serving LLMs at Scale Long Context Inference

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

논문 링크 DeepSeek-Coder-V2: 오픈소스 코드-LLM이 GPT-4 급으로 뛰어오른 순간 한 줄 요약 (TL;DR) 236 B 파라미터 MoE + 10.2 T 토큰 + YaRN 128 K 컨텍스트 만으로, **HumanEval 90.2 …

30 분
2406.11931v1 Code LLM Mixture of Experts Open Source Transformer Long Context HumanEval Math Reasoning GPT-4 Alternative Model Scaling YaRN FIM (Fill In Middle) Instruction Tuning RLHF Language Modeling

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키