게시글

모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.

총 511개의 게시글
총 86페이지

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

논문 링크 DeepSeek-VL2 — “작고 빠르면서 고해상도까지 정확한” 멀티모달 LLM 한 줄 요약 (TL;DR) Dynamic Tiling × MLA-MoE × 800 B VL 데이터라는 세 축의 설계로, 4.5 B …

31 분
2412.10302v1 DeepSeek Multimodal Learning Vision-Language Models High-Resolution Image Processing Dynamic Tiling Mixture of Experts (MoE) KV-Cache Compression Multi-head Latent Attention (MLA) Visual Grounding OCR Parameter Efficiency LLM Inference Optimization Edge AI Open Source Models Document Understanding Infographic QA Chart and Table QA Visual Reasoning Multilingual VQA Conversational AI with Images

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

논문 링크 한 줄 요약 (TL;DR) JanusFlow는 Rectified Flow + 분리형 비전 인코더 + 표현 정렬로 1.3 B 파라미터 단일 모델만으로 이미지 이해·생성 양쪽에서 동급 최고 성능(FID 9.51 / GenEval 0.63 / …

26 분
2411.07975v2 Multimodal AI Vision-Language Model Rectified Flow Image Generation Representation Alignment Unified Model FID SigLIP ConvNeXt

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

논문 링크 한 줄 요약 (TL;DR) “끊어 쓰고(Truncate-and-Resume) 탐험하며(내재 보상 MCTS) Lean 4 증명을 찾자” – DeepSeek-Prover-V1.5는 7 B 모델로 miniF2F 63.5 % / *ProofNet …

29 분
2408.08152v1 FormalProof AutomatedTheoremProving Lean4 LLMforProof ProofSearch WholeProof MCTS RMaxTS IntrinsicReward TruncateAndResume MathReasoning AI4Math LanguageModel ReinforcementLearning DeepSeekProver

Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning

논문 링크 한 줄 요약 (TL;DR) Fire-Flyer 2는 1만 대의 PCIe A100 GPU를 HFReduce·HaiScale 스택으로 묶어 DGX-A100의 80 %대 성능을 장비·전력 40 % 절감으로 달성한 ‘가성비형 초대규모 LLM 훈련 …

27 분
2408.14158v2 Distributed Training PCIe GPU Cluster All-Reduce, HFReduce Communication Optimization Cost Efficiency Power Efficiency PyTorch Large Language Models System Architecture

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키