게시글

모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.

총 511개의 게시글

총 86페이지

논문 링크 Massive Activations가 만든 하나의 서사: Attention Sink 와 Compression Valley 를 잇다 TL;DR 잔차 스트림의 massive activations(특히 BOS) …

논문 링크 GTA & GLA: 디코딩의 ‘메모리-지배’를 깨는 하드웨어 효율 어텐션 TL;DR GTA(키·값 타이잉)와 GLA(잠재 헤드 샤딩) 으로 FLOPs/byte를 끌어올리고 per-GPU KV 캐시를 줄여, …

논문 링크 NVFP4로 4-bit 프리트레이닝을 실전으로: 12B를 10T 토큰까지, FP8과 사실상 동급 TL;DR 12B 하이브리드 Mamba-Transformer를 10T tokens 에서 NVFP4(4-bit) 로 프리트레이닝하면 안정 구간 손 …

논문 링크 “GPU에 OS를 입히자”: LLM 시대를 위한 GPU 멀티태스킹 OS 레이어 의 제안 한 줄 요약 (TL;DR) LLM 서빙에서 GPU는 종종 ≤10%대 활용 에 머무르고(현장 관찰), 부하는 수분 단위 3× 로 요동한다. 저자는 커널-그 …

논문 링크 DroidSpeak: 교차-LLM Prefix-KV 재사용으로 프리필 지연을 1.7–3.1× 줄이는 방법 TL;DR (한 줄 요약) 동일 아키텍처이되 가중치가 다른 LLM들 사이에서, 보내는 모델의 prefix KV를 받는 모델이 연속층 부 …

논문 링크 Marconi: 하이브리드 LLM 시대의 프리픽스 캐싱을 다시 설계하다 한 줄 요약 (TL;DR) Marconi는 하이브리드 LLM(Attention+SSM) 서빙에서 재사용 가능성이 높은 접두만 선별 입장(admission) 하고, …