Accelerated Test-Time Scaling with Model-Free Speculative Sampling
논문 링크 한 줄 요약 (TL;DR) STAND (STochastic Adaptive N-gram Drafting)은 추가 학습이나 별도 드래프트 모델 없이도 대규모 LLM의 테스트-타임 스케일링(Test-Time Scaling)을 가속한다. 표준 오 …
27 분
2506.04708v1
STAND
Speculative Decoding
Test-Time Scaling
Inference Acceleration
Logit N-gram
Gumbel-Top-K
Large Language Models
GPU Efficiency
AI Research Review
Performance Optimization