DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
논문 링크 DeepSeek-R1: 공개 RL-Only 파이프라인으로 o1 급 추론을 재현하다 TL;DR** DeepSeek-R1은 critic-less GRPO RL + 소량 Cold-Start SFT + 다단계 RL/SFT + 지식 증류 파이프라인으로, AIME-24 pass@1 …
모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.
논문 링크 DeepSeek-R1: 공개 RL-Only 파이프라인으로 o1 급 추론을 재현하다 TL;DR** DeepSeek-R1은 critic-less GRPO RL + 소량 Cold-Start SFT + 다단계 RL/SFT + 지식 증류 파이프라인으로, AIME-24 pass@1 …
논문 링크 Janus-Pro 7B: Dual-Encoder Multimodal LLM That Outsmarts Bigger Models 한 줄 요약 (TL;DR) SigLIP 이해 인코더 + VQ 생성 인코더를 완전히 분리한 뒤 7 B 파라미터 LLM에 붙이는 ‘Dual-Encoder …
안녕하세요! 오랜만에 일상글을 작성해보네요 오늘은 출퇴근 및 라이딩에 사용하고 있는 제 자전거(첼로 스칼라티 D7)를 집에서 셀프 정비하기 위한 가이드를 만들었는데 공유해봅니다.
논문 링크 한 줄 요약 (TL;DR) DeepSeek-V3는 671 B-parameter MoE LLM에 Aux-loss-free Load-Balancing Bias + FP8 혼정밀 훈련 + Multi-Token Prediction을 결합해, dense 405 B 모델과 동급 (또는 …
논문 링크 DeepSeek-VL2 — “작고 빠르면서 고해상도까지 정확한” 멀티모달 LLM 한 줄 요약 (TL;DR) Dynamic Tiling × MLA-MoE × 800 B VL 데이터라는 세 축의 설계로, 4.5 B 활성 파라미터 모델이 DocVQA 92.3 / MMStar …
논문 링크 📝 Janus: 두 얼굴의 인코더로 멀티모달 이해 + 생성의 딜레마를 깬 1.3 B 모델 한 줄 요약 (TL;DR) Janus는 멀티모달 이해와 이미지 생성에 요구되는 서로 다른 표현 ― 고차원 semantic vs. 저차원 texture ― 의 “표현 충돌”을 듀얼 비전 인 …
검색어를 입력하세요