DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
논문 링크 DeepSeek-R1: 공개 RL-Only 파이프라인으로 o1 급 추론을 재현하다 TL;DR** DeepSeek-R1은 critic-less GRPO RL + 소량 Cold-Start SFT + 다단계 RL/SFT + 지식 증류 파이프라인으로, AIME-24 pass@1 …
'DeepSeek' 카테고리의 모든 글
논문 링크 DeepSeek-R1: 공개 RL-Only 파이프라인으로 o1 급 추론을 재현하다 TL;DR** DeepSeek-R1은 critic-less GRPO RL + 소량 Cold-Start SFT + 다단계 RL/SFT + 지식 증류 파이프라인으로, AIME-24 pass@1 …
논문 링크 Janus-Pro 7B: Dual-Encoder Multimodal LLM That Outsmarts Bigger Models 한 줄 요약 (TL;DR) SigLIP 이해 인코더 + VQ 생성 인코더를 완전히 분리한 뒤 7 B 파라미터 LLM에 붙이는 ‘Dual-Encoder …
논문 링크 한 줄 요약 (TL;DR) FLOPs / token로 재정의한 DeepSeek Scaling Law 하나로 모델·데이터·하이퍼파라미터를 자동 결정하여, 2 T token만으로 67 B 파라미터 모델이 LLaMA-2 70 B를 코드·수학·대화·다국어에서 추월했다.
논문 링크 Q : …
논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점 및 독창적인 지점
논문 링크 Q : 이 논문을 아주 자세하게 읽고 논문의 강점과 독창적인 지점을 설명해주고 핵심 알고리즘을 예시 입력을 들어서 전체적인 과정을 설명해줘 추가적으로 논문의 한계점에 대해서도 알려줘 논문의 강점과 독창적인 지점, 핵심 알고리즘 및 한계점을 다음과 같이 요약할 수 있습니다.
검색어를 입력하세요