게시글

모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.

총 515개의 게시글
총 86페이지

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

논문 링크 한 줄 요약 (TL;DR) JanusFlow는 Rectified Flow + 분리형 비전 인코더 + 표현 정렬로 1.3 B 파라미터 단일 모델만으로 이미지 이해·생성 양쪽에서 동급 최고 성능(FID 9.51 / GenEval 0.63 / …

26 분
2411.07975v2 Multimodal AI Vision-Language Model Rectified Flow Image Generation Representation Alignment Unified Model FID SigLIP ConvNeXt

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

논문 링크 한 줄 요약 (TL;DR) “끊어 쓰고(Truncate-and-Resume) 탐험하며(내재 보상 MCTS) Lean 4 증명을 찾자” – DeepSeek-Prover-V1.5는 7 B 모델로 miniF2F 63.5 % / *ProofNet …

29 분
2408.08152v1 FormalProof AutomatedTheoremProving Lean4 LLMforProof ProofSearch WholeProof MCTS RMaxTS IntrinsicReward TruncateAndResume MathReasoning AI4Math LanguageModel ReinforcementLearning DeepSeekProver

Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning

논문 링크 한 줄 요약 (TL;DR) Fire-Flyer 2는 1만 대의 PCIe A100 GPU를 HFReduce·HaiScale 스택으로 묶어 DGX-A100의 80 %대 성능을 장비·전력 40 % 절감으로 달성한 ‘가성비형 초대규모 LLM 훈련 …

27 분
2408.14158v2 Distributed Training PCIe GPU Cluster All-Reduce, HFReduce Communication Optimization Cost Efficiency Power Efficiency PyTorch Large Language Models System Architecture

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

논문 링크 DeepSeek-Coder-V2: 오픈소스 코드-LLM이 GPT-4 급으로 뛰어오른 순간 한 줄 요약 (TL;DR) 236 B 파라미터 MoE + 10.2 T 토큰 + YaRN 128 K 컨텍스트 만으로, **HumanEval 90.2 …

30 분
2406.11931v1 Code LLM Mixture of Experts Open Source Transformer Long Context HumanEval Math Reasoning GPT-4 Alternative Model Scaling YaRN FIM (Fill In Middle) Instruction Tuning RLHF Language Modeling

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키