(WIP) (Paper) Back to Basics, Revisiting REINFORCE Style Optimization for RLHF


< 목차 >


Introduction

며칠 전 Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs라는 paper가 drop됐다. 대충 Large Language Model (LLM)을 Reinforcement Learning from Human Feedback (RLHF) training을 하는 데 있어 PPO algorithm를 쓰는 것은 별로 이점이 없거나 심지어 더 안좋을 수도 있기 때문에, policy gradient method의 조상격인 1992년 출판된 REINFORCE의 variant를 쓰는 것이 낫다는 내용이다. 물론 REINFORCE는 매우 오래된 Reinforcement Learning (RL)이며, gradient estimation을 할 때 expectation을 sampling으로 대체하기에 high variance 문제에 시달리므로 좋지 못한 gradient로 parameter 를 update해야 하기 때문에 optimal point로의 optimization을 하지 못할 수 있다. 이를 해결하기 위해 causality, baseline을 도입하거나 더 나아가서 Actor-Critic style algorithm을 써야 하는데, PPO는 Critic network가 따로 존재하는 Actor-Critic algorithm이다. 하지만 본 paper는 REINFORCE를 조금 변형해서 쓰는 것을 제안했기 때문에 Critic 조차 없다. 어떤 Observation이 있었기에 이런 얘기를 하는걸까? 이제 알아보도록 하자.

Observations

References