Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
논문 링크 Native Sparse Attention (NSA) — 64 k 토큰도 11× 빠르게, 정확도는 그대로 한 줄 요약 (TL;DR) NSA는 ‘압축 → 선택 → 슬라이딩’ 3 분기 희소 어텐션과 GQA/MQA-친화 커널을 결합해 64 k 컨 …
모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.
논문 링크 Native Sparse Attention (NSA) — 64 k 토큰도 11× 빠르게, 정확도는 그대로 한 줄 요약 (TL;DR) NSA는 ‘압축 → 선택 → 슬라이딩’ 3 분기 희소 어텐션과 GQA/MQA-친화 커널을 결합해 64 k 컨 …
아래 글은 gemini의 deep research를 이용하여 생성한 리포트입니다. 앞으로의 시대에서 2차전지는 전기차와 휴머노이드와 같은 산업에서 많은 수요가 있을것으로 예상이 됩니다. 그중에서도 데이터센터에 필요한 2차전지에 주목한다면(UPS/AI …
논문 링크 DeepSeek-R1: 공개 RL-Only 파이프라인으로 o1 급 추론을 재현하다 TL;DR** DeepSeek-R1은 critic-less GRPO RL + 소량 Cold-Start SFT + 다단계 RL/SFT + 지식 증류 파이프라인으 …
논문 링크 Janus-Pro 7B: Dual-Encoder Multimodal LLM That Outsmarts Bigger Models 한 줄 요약 (TL;DR) SigLIP 이해 인코더 + VQ 생성 인코더를 완전히 분리한 뒤 7 B …
안녕하세요! 오랜만에 일상글을 작성해보네요 오늘은 출퇴근 및 라이딩에 사용하고 있는 제 자전거(첼로 스칼라티 D7)를 집에서 셀프 정비하기 위한 가이드를 만들었는데 공유해봅니다.
논문 링크 한 줄 요약 (TL;DR) DeepSeek-V3는 671 B-parameter MoE LLM에 Aux-loss-free Load-Balancing Bias + FP8 혼정밀 훈련 + Multi-Token Prediction을 결합해, …
검색어를 입력하세요