![[논문리뷰]: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models](https://paper-assets.alphaxiv.org/figures/2601.07372v1/img-0.jpeg)
[논문리뷰]: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
논문 링크 Engram: 조건부 연산(MoE) 이후의 두 번째 희소성 축, 조건부 메모리(Conditional Memory) 한 줄 요약 (TL;DR) Engram은 Transformer에 “지식 조회(lookup) primitive”를 추가해, …
![[논문리뷰]: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models](https://paper-assets.alphaxiv.org/figures/2601.07372v1/img-0.jpeg)
논문 링크 Engram: 조건부 연산(MoE) 이후의 두 번째 희소성 축, 조건부 메모리(Conditional Memory) 한 줄 요약 (TL;DR) Engram은 Transformer에 “지식 조회(lookup) primitive”를 추가해, …
![[논문리뷰]: Continuous Autoregressive Language Models](https://discuss.pytorch.kr/uploads/default/original/2X/d/d1107e24375fae20a5f3a4733826880ce5d817db.png)
논문 링크 CALM: 토큰-by-토큰 병목을 “연속 벡터-by-벡터”로 우회하는 Likelihood-Free 언어모델링 CALM (Continuous Autoregressive Language Models) 은 (K=4) (tokens/step) 단위 …
![[논문리뷰]: Memory Retrieval and Consolidation in Large Language Models through Function Tokens](https://moonlight-paper-snapshot.s3.ap-northeast-2.amazonaws.com/arxiv/memory-retrieval-and-consolidation-in-large-language-models-through-function-tokens-4.png)
논문 링크 Function Token Hypothesis: LLM “기억 검색”의 게이트는 왜 구두점과 개행인가 한 줄 요약 (TL;DR) 이 논문은 LLM의 기억을 “feature의 재활성화(retrieval) + 학습을 통한 feature 확 …
![[논문리뷰]: NVIDIA Nemotron 3: Efficient and Open Intelligence](https://developer-blogs.nvidia.com/wp-content/uploads/2025/12/image3-8-png.webp)
논문 링크 NVIDIA Nemotron 3: 하이브리드 Mamba–Transformer MoE로 “정확도/처리량” 프런티어를 당기다 Nemotron 3 는 MoE 하이브리드 Mamba–Transformer, LatentMoE , MTP , NVFP4 …
![[논문리뷰]: Radial Attention: O(n log n) Sparse Attention with Energy Decay for Long Video Generation](https://moonlight-paper-snapshot.s3.ap-northeast-2.amazonaws.com/arxiv/radial-attention-onlog-n-sparse-attention-with-energy-decay-for-long-video-generation-2.png)
논문 링크 Radial Attention: O(n log n) Sparse Attention with Energy Decay로 “긴 비디오”를 싸게 뽑기 한 줄 요약 (TL;DR) 사후(softmax 이후) attention 에너지가 거리(시간/공간) …
검색어를 입력하세요