Inference-Time Scaling for Generalist Reward Modeling
논문 링크 Inference-Time Scaling: DeepSeek-GRM이 초대형 모델을 넘어선 비결 한 줄 요약 (TL;DR) “27 B 모델 × 32배 샘플”—Generative Reward Model(GRM)과 k-Vote 합산만으로 GPT-4o·Nemotron-340B보다 높 …
22 분
'Preference Modeling' 태그의 모든 글
검색어를 입력하세요