Long Context

'Long Context' 태그의 모든 글

총 7개의 글
시간순 정렬
[논문리뷰] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

[논문리뷰] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

논문 링크 Structured State Space Duality: Mamba-2로 본 SSM↔Attention 통일과 2–8× 가속 한 줄 요약 (TL;DR) SSD(Structured State-Space Duality) 는 SSM과 마스킹 어텐션 …

42 분
Mamba Mamba-2 Structured State Space Duality SSD State Space Models SSM Transformer Attention Mechanism Long Context Efficient Training FlashAttention Sequence Modeling Scaling Laws Parallelism GPU Acceleration 2405.21060v1

Code I/O: Condensing Reasoning Patterns via Code Input-Output Prediction

논문 링크 CODE I/O: 코드 입·출력 + 자연어 CoT로 범용 추론까지 — 데이터 설계만으로 7B-30B LLM을 평균 +2 점 끌어올리다 TL;DR “코드 함수 → 입력·출력 예측 + 체계적 Chain-of-Thought(CoT)”라는 단일 데 …

31 분
2502.07316v4 DeepSeek LLM Code Reasoning Chain-of-Thought I/O Prediction Execution Feedback Data-Centric AI Instruction Tuning Transformer Long Context

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

논문 링크 Native Sparse Attention (NSA) — 64 k 토큰도 11× 빠르게, 정확도는 그대로 한 줄 요약 (TL;DR) NSA는 ‘압축 → 선택 → 슬라이딩’ 3 분기 희소 어텐션과 GQA/MQA-친화 커널을 결합해 64 k 컨 …

31 분
2502.11089v2 Sparse Attention Long Context Transformer Optimization Efficient LLM GPU Acceleration FlashAttention Memory Efficiency Inference Speedup Trainable Sparsity Triton Kernel Deep Learning Language Models DeepSeek

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

논문 링크 DeepSeek-Coder-V2: 오픈소스 코드-LLM이 GPT-4 급으로 뛰어오른 순간 한 줄 요약 (TL;DR) 236 B 파라미터 MoE + 10.2 T 토큰 + YaRN 128 K 컨텍스트 만으로, **HumanEval 90.2 …

30 분
2406.11931v1 Code LLM Mixture of Experts Open Source Transformer Long Context HumanEval Math Reasoning GPT-4 Alternative Model Scaling YaRN FIM (Fill In Middle) Instruction Tuning RLHF Language Modeling

KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

논문 링크 ⚡️TL;DR KVzip는 LLM의 KV 캐시를 한 번 압축해도 이후 모든 질의 · 세션에서 재사용할 수 있도록 설계된 query-agnostic 캐시 컴프레서다. 그 결과 정확도 손실 ≤ 3 pp를 유지하면서 **레이턴시 2 × ↓, 메모 …

24 분
2505.23416v1 kvzip kv-cache long-context cache-compression memory-optimization latency-reduction flashattention llm large-language-models ai-systems nlp

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키