DeepSeek

'DeepSeek' 태그의 모든 글

총 11개의 글
시간순 정렬

Code I/O: Condensing Reasoning Patterns via Code Input-Output Prediction

논문 링크 CODE I/O: 코드 입·출력 + 자연어 CoT로 범용 추론까지 — 데이터 설계만으로 7B-30B LLM을 평균 +2 점 끌어올리다 TL;DR “코드 함수 → 입력·출력 예측 + 체계적 Chain-of-Thought(CoT)”라는 단일 데 …

31 분
2502.07316v4 DeepSeek LLM Code Reasoning Chain-of-Thought I/O Prediction Execution Feedback Data-Centric AI Instruction Tuning Transformer Long Context

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

논문 링크 Native Sparse Attention (NSA) — 64 k 토큰도 11× 빠르게, 정확도는 그대로 한 줄 요약 (TL;DR) NSA는 ‘압축 → 선택 → 슬라이딩’ 3 분기 희소 어텐션과 GQA/MQA-친화 커널을 결합해 64 k 컨 …

31 분
2502.11089v2 Sparse Attention Long Context Transformer Optimization Efficient LLM GPU Acceleration FlashAttention Memory Efficiency Inference Speedup Trainable Sparsity Triton Kernel Deep Learning Language Models DeepSeek

Janus-Pro: UnifiedMultimodalUnderstanding and Generation with Data and Model Scaling

논문 링크 Janus-Pro 7B: Dual-Encoder Multimodal LLM That Outsmarts Bigger Models 한 줄 요약 (TL;DR) SigLIP 이해 인코더 + VQ 생성 인코더를 완전히 분리한 뒤 7 B …

31 분
DeepSeek 2501.17811v1 Janus-Pro Dual-Encoder Multimodal Learning Vision-Language Models Text-to-Image Image Understanding Large Language Models Adapter Networks Visual Tokenization GenEval MMBench DPG-Bench DeepSeek-LLM Efficient Training Synthetic Data

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

논문 링크 DeepSeek-VL2 — “작고 빠르면서 고해상도까지 정확한” 멀티모달 LLM 한 줄 요약 (TL;DR) Dynamic Tiling × MLA-MoE × 800 B VL 데이터라는 세 축의 설계로, 4.5 B …

31 분
2412.10302v1 DeepSeek Multimodal Learning Vision-Language Models High-Resolution Image Processing Dynamic Tiling Mixture of Experts (MoE) KV-Cache Compression Multi-head Latent Attention (MLA) Visual Grounding OCR Parameter Efficiency LLM Inference Optimization Edge AI Open Source Models Document Understanding Infographic QA Chart and Table QA Visual Reasoning Multilingual VQA Conversational AI with Images

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키