Compress, Gather, and Recompute: REFORMingLong-Context Processing in Transformers
논문 링크 ⚡️ REFORM: 100만 토큰도 잊지 않는 LLM 추론 파이프라인 한 줄 요약 (TL;DR) REFORM은 압축(Compress) → 선별(Gather) → 선택적 재계산(Recompute) 세 단계를 하나로 묶어, 단일 H100 GPU에서도 100 만 토큰 문맥을 망각 …
모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.
논문 링크 ⚡️ REFORM: 100만 토큰도 잊지 않는 LLM 추론 파이프라인 한 줄 요약 (TL;DR) REFORM은 압축(Compress) → 선별(Gather) → 선택적 재계산(Recompute) 세 단계를 하나로 묶어, 단일 H100 GPU에서도 100 만 토큰 문맥을 망각 …
논문 링크 📝 Mamba Drafters: 선형 SSM으로 외부 Speculative Decoding SOTA 다시 쓰기 한 줄 요약 (TL;DR) Transformer 대신 Mamba SSM을 외부 드래프터로 쓰고, 트리 초안 + UCB …
논문 링크 Gemini 2.5: 1 M 토큰·멀티모달·초저지연 LLM의 비밀을 벗기다 한 줄 요약 (TL;DR) Sparse-MoE + Slice-Elastic TPU 학습 + Flash Distillation 덕분에, Gemini 2.5는 1 M 토큰 컨텍스트와 비디오·오디오까지 통합 …
논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 LLM 추론 가속화를 위한 비동기식 KV …
논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 Hogwild! Inference 논문 심층 분석 제공해주신 “Hogwild! …
논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 MMInference 논문 리뷰: VLM의 긴 컨텍스트 추론, ‘순열’ …
검색어를 입력하세요