(WIP) Aligning LLM with Offline RL


< 목차 >


Introduction

OpenAI와 Antrophic 등 수많은 human preference 에 align된 chatbot을 서비스하는 회사들은 Reinforcement Learning from Human Feedback (RLHF)로 model을 학습했다고 알려져 있다. RLHF는 SFT로 Large Language Model (LLM)에 prompt이해력을 주입하고, RM으로 preference data를 학습하고, 마지막으로 Proximal Policy Optimization (PPO)로 tuning 하는 복잡한 과정을 거친다. 그렇기 때문에 요즘 RRHF나 Rejection Sampling 나 Direct Preference Optimization (DPO)같은 것들이 많이 제안되고 있다. 오늘은 Offline RL method에 대해서 알아볼 것이다.

(Offline RL에 대한 background가 없다면 이 post를 참고하길 바랍니다)

tmp

tmp

Direct Preference Optimization (DPO)

Direct Preference Optimization (DPO)는 preference data가 주어졌을 때, RLHF를 위해서 RM을 학습을 한 뒤 PPO를 하는 과정을 하나로 묶은 것이다.

References