Llm-Systems

'Llm-Systems' 카테고리의 모든 글

총 3개의 글

시간순 정렬

논문 링크 Function Token Hypothesis: LLM “기억 검색”의 게이트는 왜 구두점과 개행인가 한 줄 요약 (TL;DR) 이 논문은 LLM의 기억을 “feature의 재활성화(retrieval) + 학습을 통한 feature 확 …

논문 링크 “GPU에 OS를 입히자”: LLM 시대를 위한 GPU 멀티태스킹 OS 레이어 의 제안 한 줄 요약 (TL;DR) LLM 서빙에서 GPU는 종종 ≤10%대 활용 에 머무르고(현장 관찰), 부하는 수분 단위 3× 로 요동한다. 저자는 커널-그 …

논문 링크 Marconi: 하이브리드 LLM 시대의 프리픽스 캐싱을 다시 설계하다 한 줄 요약 (TL;DR) Marconi는 하이브리드 LLM(Attention+SSM) 서빙에서 재사용 가능성이 높은 접두만 선별 입장(admission) 하고, …