NLP (2) 썸네일형 리스트형 [Paper Review] Code Generation with AlphaCodium: From Prompt Engineering to FlowEngineering 논문 요약 이 논문에서는 기존의 프롬프트 기반 접근 방식을 넘어서, AlphaCodium이라는 코드 생성 문제를 해결하기 위한 새로운 플로우에 대해서 이야기하고 있습니다. AlphaCodium은 기존의 프롬프트 기반 접근 방식을 넘어서, 코드 생성 문제를 효과적으로 해결하기 위한 새로운 플로우를 제시합니다. 이 혁신적인 기법은 문제 해결을 위한 반복적인 절차와 테스트 기반의 다단계 접근 방식을 활용하여 코드 생성 능력을 크게 향상시킵니다. 프로그래밍 문제 CodeContests 데이터셋을 활용하여 AlphaCodium 플로우로 언어 모델의 코드 생성 능력을 평가했습니다. CodeContests 데이터셋을 활용한 평가 결과, AlphaCodium Flow를 적용한 GPT-4와 같은 대규모 언어 모델은 단일 프롬프트 .. [RLHF] DPO와 PPO 특징 정리 (Direct Preference Optimization / Proximal Policy Optimization) DPO 관련 논문을 읽던 중 궁금해서 찾아보고 정리한 내용입니다. DPO(Direct Preference Optimization)와 PPO(Proximal Policy Optimization)는 강화학습 알고리즘의 한 종류로, 각각 다음과 같은 특징을 가지고 있습니다. DPO (Direct Preference Optimization) DPO는 기존의 강화학습에서 인간의 피드백(RLHF) 방식을 개선한 새로운 방법인 직접 선호 최적화(Direct Preference Optimization, DPO)를 제안합니다. DPO는 RLHF에서 보상 모델의 새로운 매개변수화를 도입하여, 이에 해당하는 최적 정책을 닫힌 형태로 추출할 수 있게 하여, 단순한 분류 손실만으로 표준 RLHF 문제를 해결할 수 있게 합니다... 이전 1 다음