RLHF (1) 썸네일형 리스트형 [RLHF] DPO와 PPO 특징 정리 (Direct Preference Optimization / Proximal Policy Optimization) DPO 관련 논문을 읽던 중 궁금해서 찾아보고 정리한 내용입니다. DPO(Direct Preference Optimization)와 PPO(Proximal Policy Optimization)는 강화학습 알고리즘의 한 종류로, 각각 다음과 같은 특징을 가지고 있습니다. DPO (Direct Preference Optimization) DPO는 기존의 강화학습에서 인간의 피드백(RLHF) 방식을 개선한 새로운 방법인 직접 선호 최적화(Direct Preference Optimization, DPO)를 제안합니다. DPO는 RLHF에서 보상 모델의 새로운 매개변수화를 도입하여, 이에 해당하는 최적 정책을 닫힌 형태로 추출할 수 있게 하여, 단순한 분류 손실만으로 표준 RLHF 문제를 해결할 수 있게 합니다... 이전 1 다음