Large Language Models

'Large Language Models' 태그의 모든 글

총 7개의 글

시간순 정렬

[논문리뷰] Peri-LN: Revisiting Normalization Layer in the Transformer Architecture

논문 링크 Peri-LayerNorm: Post-LN와 Pre-LN을 넘어서는 세 번째 선택지 한 줄 요약 (TL;DR) Residual 직후에 LayerNorm을 한 번 더 넣는 “Peri-LayerNorm(Peri-LN)” 구조만으로 — 400 …

2025년 07월 09일

2502.02732v3 LayerNorm Transformer Architecture Training Stability Large Language Models FP16 Training Empirical Evaluation Gradient Explosion Benchmark Evaluation

Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

논문 링크 DeepSeek-V3: 2 048 대 H800으로 405 B-급 LLM을 돌린다는 것의 의미 TL;DR ― 한 줄 요약 Multi-Head Latent Attention (MLA) + FP8 MoE + Dual-Pipe + 2-계층 MPFT …

2025년 07월 08일

2505.09343v1 Large Language Models Mixture of Experts FP8 Training Transformer Optimization Memory Efficiency Distributed Training Inference Acceleration DeepSeek

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

논문 링크 DeepSeek-R1: 공개 RL-Only 파이프라인으로 o1 급 추론을 재현하다 TL;DR** DeepSeek-R1은 critic-less GRPO RL + 소량 Cold-Start SFT + 다단계 RL/SFT + 지식 증류 파이프라인으 …

2025년 07월 06일

2501.12948v1 DeepSeek Large Language Models Reinforcement Learning GRPO Math Reasoning Knowledge Distillation Causal LM Open Source Models Self-Evolution SOTA Benchmarking

Janus-Pro: UnifiedMultimodalUnderstanding and Generation with Data and Model Scaling

논문 링크 Janus-Pro 7B: Dual-Encoder Multimodal LLM That Outsmarts Bigger Models 한 줄 요약 (TL;DR) SigLIP 이해 인코더 + VQ 생성 인코더를 완전히 분리한 뒤 7 B …

2025년 07월 06일

DeepSeek 2501.17811v1 Janus-Pro Dual-Encoder Multimodal Learning Vision-Language Models Text-to-Image Image Understanding Large Language Models Adapter Networks Visual Tokenization GenEval MMBench DPG-Bench DeepSeek-LLM Efficient Training Synthetic Data

Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning

논문 링크 한 줄 요약 (TL;DR) Fire-Flyer 2는 1만 대의 PCIe A100 GPU를 HFReduce·HaiScale 스택으로 묶어 DGX-A100의 80 %대 성능을 장비·전력 40 % 절감으로 달성한 ‘가성비형 초대규모 LLM 훈련 …

2025년 07월 01일

2408.14158v2 Distributed Training PCIe GPU Cluster All-Reduce, HFReduce Communication Optimization Cost Efficiency Power Efficiency PyTorch Large Language Models System Architecture

Accelerated Test-Time Scaling with Model-Free Speculative Sampling

논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. 표준 오 …

2025년 06월 26일

2506.04708v1 STAND Speculative Decoding Test-Time Scaling Inference Acceleration Logit N-gram Gumbel-Top-K Large Language Models GPU Efficiency AI Research Review Performance Optimization

KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

논문 링크 ⚡️TL;DR KVzip는 LLM의 KV 캐시를 한 번 압축해도 이후 모든 질의 · 세션에서 재사용할 수 있도록 설계된 query-agnostic 캐시 컴프레서다. 그 결과 정확도 손실 ≤ 3 pp를 유지하면서 **레이턴시 2 × ↓, 메모 …

2025년 06월 26일

2505.23416v1 kvzip kv-cache long-context cache-compression memory-optimization latency-reduction flashattention llm large-language-models ai-systems nlp