(WIP) Aligning LLM with Offline RL
28 Nov 2023< 목차 >
Introduction
OpenAI와 Antrophic 등 수많은 human preference 에 align된 chatbot을 서비스하는 회사들은 Reinforcement Learning from Human Feedback (RLHF)로 model을 학습했다고 알려져 있다. RLHF는 SFT로 Large Language Model (LLM)에 prompt이해력을 주입하고, RM으로 preference data를 학습하고, 마지막으로 Proximal Policy Optimization (PPO)로 tuning 하는 복잡한 과정을 거친다. 그렇기 때문에 요즘 RRHF나 Rejection Sampling 나 Direct Preference Optimization (DPO)같은 것들이 많이 제안되고 있다. 오늘은 Offline RL method에 대해서 알아볼 것이다.
(Offline RL에 대한 background가 없다면 이 post를 참고하길 바랍니다)
tmp
tmp
Direct Preference Optimization (DPO)
Direct Preference Optimization (DPO)는 preference data가 주어졌을 때, RLHF를 위해서 RM을 학습을 한 뒤 PPO를 하는 과정을 하나로 묶은 것이다.
References
- Papers
- Aligning Language Models with Offline Reinforcement Learning from Human Feedback
- Hindsight Experience Replay
- Chain of Hindsight Aligns Language Models with Feedback
-
Decision Transformer: Reinforcement Learning via Sequence Modeling
- Direct Preference Optimization: Your Language Model is Secretly a Reward Model
- Offline RL for Natural Language Generation with Implicit Language Q Learning (ILQL)