Paper-Review

'Paper-Review' 카테고리의 모든 글

총 402개의 글
시간순 정렬
[논문 리뷰] Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

[논문 리뷰] Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

논문 링크 Massive Activations가 만든 하나의 서사: Attention Sink 와 Compression Valley 를 잇다 TL;DR 잔차 스트림의 massive activations(특히 BOS) …

34 분
2510.06477v1 Massive Activations Attention Sink Compression Valley Residual Stream Representation Geometry Anisotropy Information Bottleneck Mix–Compress–Refine MLP Ablation Layerwise Analysis LLaMA3 Qwen2 Pythia LogitLens TunedLens LLM Internals Activation Dynamics Paper Review
[논문 리뷰] Hardware-Efficient Attention for Fast Decoding

[논문 리뷰] Hardware-Efficient Attention for Fast Decoding

논문 링크 GTA & GLA: 디코딩의 ‘메모리-지배’를 깨는 하드웨어 효율 어텐션 TL;DR GTA(키·값 타이잉)와 GLA(잠재 헤드 샤딩) 으로 FLOPs/byte를 끌어올리고 per-GPU KV 캐시를 줄여, …

33 분
2505.21487v1 Attention Optimization Arithmetic Intensity Inference Acceleration GPU Memory Bottleneck Grouped-Tied Attention (GTA) Grouped-Latent Attention (GLA) FlashMLA KV-Cache Optimization Tensor Parallelism Long-Context Decoding

[논문리뷰]Towards Efficient and Practical GPU Multitasking in the Era of LLM

논문 링크 “GPU에 OS를 입히자”: LLM 시대를 위한 GPU 멀티태스킹 OS 레이어 의 제안 한 줄 요약 (TL;DR) LLM 서빙에서 GPU는 종종 ≤10%대 활용 에 머무르고(현장 관찰), 부하는 수분 단위 3× 로 요동한다. 저자는 커널-그 …

39 분
2508.08448v1 GPU-OS Multitasking CUDA Virtual Memory GPU Scheduling Multi-Tenancy Kernel-Level Sharing Memory Multiplexing Guaranteed & Preemptible Utility Scheduling Kubernetes DRA NCCL Virtualization LLM Inference System Design Resource Isolation

[논문리뷰] DroidSpeak: KV Cache Sharing for Cross-LLM Communication and Multi-LLM Serving

논문 링크 DroidSpeak: 교차-LLM Prefix-KV 재사용으로 프리필 지연을 1.7–3.1× 줄이는 방법 TL;DR (한 줄 요약) 동일 아키텍처이되 가중치가 다른 LLM들 사이에서, 보내는 모델의 prefix KV를 받는 모델이 연속층 부 …

38 분
2411.02820v4 droidspeak 교차-LLM-KV-재사용 (cross-llm-kv-reuse) prefix-kv / e-cache 연속층-부분-재계산 (contiguous-layer-recompute)
[논문리뷰] SGLang: Efficient Execution of Structured Language Model Programs

[논문리뷰] SGLang: Efficient Execution of Structured Language Model Programs

논문 링크 SGLang & RadixAttention: “LM 프로그램” 시대의 실행 최적화, 어떻게 6.4× 빨라졌나 TL;DR 언어–런타임 공동 설계(co-design) 위에 RadixAttention(라딕스 트리 기반 KV 캐시+스케줄 …

41 분
SGLang RadixAttention KV 캐시 LLM Inference 프로그래밍 언어와 런타임 Constrained Decoding Speculative Execution Distributed Inference Prompt Optimization 멀티모달
[논문리뷰] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

[논문리뷰] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

논문 링크 Structured State Space Duality: Mamba-2로 본 SSM↔Attention 통일과 2–8× 가속 한 줄 요약 (TL;DR) SSD(Structured State-Space Duality) 는 SSM과 마스킹 어텐션 …

42 분
Mamba Mamba-2 Structured State Space Duality SSD State Space Models SSM Transformer Attention Mechanism Long Context Efficient Training FlashAttention Sequence Modeling Scaling Laws Parallelism GPU Acceleration 2405.21060v1
[논문리뷰] Llama-Nemotron: Efficient Reasoning Models

[논문리뷰] Llama-Nemotron: Efficient Reasoning Models

논문 링크 Hydragen: 공유 프리픽스가 있는 대규모 배치를 32 × 빠르게 디코딩하는 비밀 병기 한 줄 요약 (TL;DR) Softmax 분모 재스케일링으로 프리픽스-서픽스를 분해해 Code-Llama-13 B 기준 vLLM보다 최대 32배 빠르 …

26 분
2505.00949v4 Hydragen Prefix Caching Shared Prefix Decoding Efficient Inference Softmax Decomposition LLM Serving Attention Optimization FlashAttention vLLM Batch Inference Matrix-Matrix GEMM TensorCore Optimization
[논문리뷰] SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-bit Training

[논문리뷰] SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-bit Training

논문 링크 SageAttention 3 & SageBwd — FP4로 달리고 8-bit로 학습한다 📝 한 줄 요약 (TL;DR) Blackwell 세대 GPU의 FP4 Tensor Core를 100 % 활용하도록 설계된 SageAttention …

26 분
2505.11594v1 LowPrecision FP4 INT8Training EfficientAttention SageAttention TransformerOptimization BlackwellGPU Quantization InferenceAcceleration TrainingEfficiency CUDA Triton
[논문리뷰] Helix Parallelism: Rethinking Sharding Strategies for Interactive Multi-Million-Token LLM Decoding

[논문리뷰] Helix Parallelism: Rethinking Sharding Strategies for Interactive Multi-Million-Token LLM Decoding

논문 링크 Helix Parallelism: 초장기 LLM 디코딩의 지연-처리량 벽을 깨다 한 줄 요약 (TL;DR) Helix Parallelism은 Attention과 FFN을 서로 다른 병렬화 전략으로 스케줄링해 KV 캐시 중복과 FFN 가중치 …

31 분
2505.09343v1 Helix Parallelism Tensor Parallelism KV Parallelism Mixture of Experts Grouped Query Attention (GQA) FlashAttention Parallelism for LLMs System-Aware ML Efficient Transformer Inference Serving LLMs at Scale Long Context Inference

Code I/O: Condensing Reasoning Patterns via Code Input-Output Prediction

논문 링크 CODE I/O: 코드 입·출력 + 자연어 CoT로 범용 추론까지 — 데이터 설계만으로 7B-30B LLM을 평균 +2 점 끌어올리다 TL;DR “코드 함수 → 입력·출력 예측 + 체계적 Chain-of-Thought(CoT)”라는 단일 데 …

31 분
2502.07316v4 DeepSeek LLM Code Reasoning Chain-of-Thought I/O Prediction Execution Feedback Data-Centric AI Instruction Tuning Transformer Long Context

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

논문 링크 Native Sparse Attention (NSA) — 64 k 토큰도 11× 빠르게, 정확도는 그대로 한 줄 요약 (TL;DR) NSA는 ‘압축 → 선택 → 슬라이딩’ 3 분기 희소 어텐션과 GQA/MQA-친화 커널을 결합해 64 k 컨 …

31 분
2502.11089v2 Sparse Attention Long Context Transformer Optimization Efficient LLM GPU Acceleration FlashAttention Memory Efficiency Inference Speedup Trainable Sparsity Triton Kernel Deep Learning Language Models DeepSeek

Janus-Pro: UnifiedMultimodalUnderstanding and Generation with Data and Model Scaling

논문 링크 Janus-Pro 7B: Dual-Encoder Multimodal LLM That Outsmarts Bigger Models 한 줄 요약 (TL;DR) SigLIP 이해 인코더 + VQ 생성 인코더를 완전히 분리한 뒤 7 B …

31 분
DeepSeek 2501.17811v1 Janus-Pro Dual-Encoder Multimodal Learning Vision-Language Models Text-to-Image Image Understanding Large Language Models Adapter Networks Visual Tokenization GenEval MMBench DPG-Bench DeepSeek-LLM Efficient Training Synthetic Data

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

논문 링크 DeepSeek-VL2 — “작고 빠르면서 고해상도까지 정확한” 멀티모달 LLM 한 줄 요약 (TL;DR) Dynamic Tiling × MLA-MoE × 800 B VL 데이터라는 세 축의 설계로, 4.5 B …

31 분
2412.10302v1 DeepSeek Multimodal Learning Vision-Language Models High-Resolution Image Processing Dynamic Tiling Mixture of Experts (MoE) KV-Cache Compression Multi-head Latent Attention (MLA) Visual Grounding OCR Parameter Efficiency LLM Inference Optimization Edge AI Open Source Models Document Understanding Infographic QA Chart and Table QA Visual Reasoning Multilingual VQA Conversational AI with Images

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

논문 링크 한 줄 요약 (TL;DR) JanusFlow는 Rectified Flow + 분리형 비전 인코더 + 표현 정렬로 1.3 B 파라미터 단일 모델만으로 이미지 이해·생성 양쪽에서 동급 최고 성능(FID 9.51 / GenEval 0.63 / …

26 분
2411.07975v2 Multimodal AI Vision-Language Model Rectified Flow Image Generation Representation Alignment Unified Model FID SigLIP ConvNeXt

DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

논문 링크 한 줄 요약 (TL;DR) “끊어 쓰고(Truncate-and-Resume) 탐험하며(내재 보상 MCTS) Lean 4 증명을 찾자” – DeepSeek-Prover-V1.5는 7 B 모델로 miniF2F 63.5 % / *ProofNet …

29 분
2408.08152v1 FormalProof AutomatedTheoremProving Lean4 LLMforProof ProofSearch WholeProof MCTS RMaxTS IntrinsicReward TruncateAndResume MathReasoning AI4Math LanguageModel ReinforcementLearning DeepSeekProver

Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning

논문 링크 한 줄 요약 (TL;DR) Fire-Flyer 2는 1만 대의 PCIe A100 GPU를 HFReduce·HaiScale 스택으로 묶어 DGX-A100의 80 %대 성능을 장비·전력 40 % 절감으로 달성한 ‘가성비형 초대규모 LLM 훈련 …

27 분
2408.14158v2 Distributed Training PCIe GPU Cluster All-Reduce, HFReduce Communication Optimization Cost Efficiency Power Efficiency PyTorch Large Language Models System Architecture

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

논문 링크 DeepSeek-Coder-V2: 오픈소스 코드-LLM이 GPT-4 급으로 뛰어오른 순간 한 줄 요약 (TL;DR) 236 B 파라미터 MoE + 10.2 T 토큰 + YaRN 128 K 컨텍스트 만으로, **HumanEval 90.2 …

30 분
2406.11931v1 Code LLM Mixture of Experts Open Source Transformer Long Context HumanEval Math Reasoning GPT-4 Alternative Model Scaling YaRN FIM (Fill In Middle) Instruction Tuning RLHF Language Modeling

Accelerated Test-Time Scaling with Model-Free Speculative Sampling

논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. 표준 오 …

27 분
2506.04708v1 STAND Speculative Decoding Test-Time Scaling Inference Acceleration Logit N-gram Gumbel-Top-K Large Language Models GPU Efficiency AI Research Review Performance Optimization

KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

논문 링크 ⚡️TL;DR KVzip는 LLM의 KV 캐시를 한 번 압축해도 이후 모든 질의 · 세션에서 재사용할 수 있도록 설계된 query-agnostic 캐시 컴프레서다. 그 결과 정확도 손실 ≤ 3 pp를 유지하면서 **레이턴시 2 × ↓, 메모 …

24 분
2505.23416v1 kvzip kv-cache long-context cache-compression memory-optimization latency-reduction flashattention llm large-language-models ai-systems nlp

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키