게시글

모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.

총 511개의 게시글

총 86페이지

논문 링크 SageAttention 3 & SageBwd — FP4로 달리고 8-bit로 학습한다 📝 한 줄 요약 (TL;DR) Blackwell 세대 GPU의 FP4 Tensor Core를 100 % 활용하도록 설계된 SageAttention …

논문 링크 Helix Parallelism: 초장기 LLM 디코딩의 지연-처리량 벽을 깨다 한 줄 요약 (TL;DR) Helix Parallelism은 Attention과 FFN을 서로 다른 병렬화 전략으로 스케줄링해 KV 캐시 중복과 FFN 가중치 …

논문 링크 Subgoal Curriculum + CoT Consistency: DeepSeek-Prover-V2가 자동 정리 증명의 판을 갈아엎다 TL;DR DeepSeek-Prover-V2는 **“문제를 잘게 쪼개고, 쪼갠 대로 끝까지 맞춘다”** …

논문 링크 Inference-Time Scaling: DeepSeek-GRM이 초대형 모델을 넘어선 비결 한 줄 요약 (TL;DR) “27 B 모델 × 32배 샘플”—Generative Reward Model(GRM)과 k-Vote …

논문 링크 DeepSeek-V3: 2 048 대 H800으로 405 B-급 LLM을 돌린다는 것의 의미 TL;DR ― 한 줄 요약 Multi-Head Latent Attention (MLA) + FP8 MoE + Dual-Pipe + 2-계층 MPFT …

논문 링크 CODE I/O: 코드 입·출력 + 자연어 CoT로 범용 추론까지 — 데이터 설계만으로 7B-30B LLM을 평균 +2 점 끌어올리다 TL;DR “코드 함수 → 입력·출력 예측 + 체계적 Chain-of-Thought(CoT)”라는 단일 데 …