DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
논문 링크 DeepSeek-VL2 — “작고 빠르면서 고해상도까지 정확한” 멀티모달 LLM 한 줄 요약 (TL;DR) Dynamic Tiling × MLA-MoE × 800 B VL 데이터라는 세 축의 설계로, 4.5 B …
모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.
논문 링크 DeepSeek-VL2 — “작고 빠르면서 고해상도까지 정확한” 멀티모달 LLM 한 줄 요약 (TL;DR) Dynamic Tiling × MLA-MoE × 800 B VL 데이터라는 세 축의 설계로, 4.5 B …
논문 링크 📝 Janus: 두 얼굴의 인코더로 멀티모달 이해 + 생성의 딜레마를 깬 1.3 B 모델 한 줄 요약 (TL;DR) Janus는 멀티모달 이해와 이미지 생성에 요구되는 서로 다른 표현 ― 고차원 semantic vs. 저차원 texture …
논문 링크 한 줄 요약 (TL;DR) JanusFlow는 Rectified Flow + 분리형 비전 인코더 + 표현 정렬로 1.3 B 파라미터 단일 모델만으로 이미지 이해·생성 양쪽에서 동급 최고 성능(FID 9.51 / GenEval 0.63 / …
논문 링크 한 줄 요약 (TL;DR) Loss-Free Balancing(LFB)은 auxiliary loss를 완전히 제거한 채, 전문가별 bias 한 줄 업데이트만으로 Mixture-of-Experts(MoE) 모델의 ‘로드 밸런스 ↔ 성능’ 딜레 …
논문 링크 한 줄 요약 (TL;DR) “끊어 쓰고(Truncate-and-Resume) 탐험하며(내재 보상 MCTS) Lean 4 증명을 찾자” – DeepSeek-Prover-V1.5는 7 B 모델로 miniF2F 63.5 % / *ProofNet …
논문 링크 한 줄 요약 (TL;DR) Fire-Flyer 2는 1만 대의 PCIe A100 GPU를 HFReduce·HaiScale 스택으로 묶어 DGX-A100의 80 %대 성능을 장비·전력 40 % 절감으로 달성한 ‘가성비형 초대규모 LLM 훈련 …
검색어를 입력하세요