Preference Modeling

'Preference Modeling' 태그의 모든 글

총 1개의 글

시간순 정렬

논문 링크 Inference-Time Scaling: DeepSeek-GRM이 초대형 모델을 넘어선 비결 한 줄 요약 (TL;DR) “27 B 모델 × 32배 샘플”—Generative Reward Model(GRM)과 k-Vote …