Inference Acceleration

'Inference Acceleration' 태그의 모든 글

총 3개의 글
시간순 정렬
[논문 리뷰] Hardware-Efficient Attention for Fast Decoding

[논문 리뷰] Hardware-Efficient Attention for Fast Decoding

논문 링크 GTA & GLA: 디코딩의 ‘메모리-지배’를 깨는 하드웨어 효율 어텐션 TL;DR GTA(키·값 타이잉)와 GLA(잠재 헤드 샤딩) 으로 FLOPs/byte를 끌어올리고 per-GPU KV 캐시를 줄여, …

33 분
2505.21487v1 Attention Optimization Arithmetic Intensity Inference Acceleration GPU Memory Bottleneck Grouped-Tied Attention (GTA) Grouped-Latent Attention (GLA) FlashMLA KV-Cache Optimization Tensor Parallelism Long-Context Decoding

Accelerated Test-Time Scaling with Model-Free Speculative Sampling

논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. 표준 오 …

27 분
2506.04708v1 STAND Speculative Decoding Test-Time Scaling Inference Acceleration Logit N-gram Gumbel-Top-K Large Language Models GPU Efficiency AI Research Review Performance Optimization

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키