(CS285) RL with Sequence Models & Language Models

이 글은 UC Berkeley 의 교수, Sergey Levine 의 심층 강화 학습 (Deep Reinforcement Learning) 강의인 CS285를 듣고 작성한 글 입니다.

2023 CS285 Lecture 21
- Youtube Video
  - Part 1
  - Part 2
  - Part 3
- Lecture Slide

전년도 까지만 해도 Lecture 20이 Inverse RL (IRL)을 다루고 Lecture 21의 주제는 Transfer Learning and Multi-Task Learning 였는데, human aligned chatbot인 ChatGPT가 너무나 큰 영향력을 지녔기에 IRL의 extension인 RLHF를 다루지 않을 수 없었던 것 같습니다.

Large Language Model (LLM)과 RLHF에 대한 내용은 제 blog에도 따로 post를 작성했으니 나중에 참고하셔도 좋을 것 같습니다.

< 목차 >

Overview
POMDP
RL and Language Models
Multi-step RL and Language Models
tmp
- asd
Reference

Overview

전반적인 내용은 “Sequence Modeling이 기존 RL과 어떻게 다른가?”, “다르다면 Sequence Modeling의 일종인 Langugage Modeling은 어떻게 풀어야 하며 value-based, policy-based, model-based 등의 algorithm들 중에서 어떤 선택을 해야할까?” 등으로 이루어져 있습니다.

먼저 Sequence Modeling은 Partially Observed Markov Decision Process (POMDP)로 기존의 state를 쓰던 RL setting과는 다른 점이 있다는 얘기부터 시작해서

cs285_2023_fall_lec_21_slide_001 Fig. PART 1

대표적인 policy-base method인 Proximal Policy Optimization (PPO)를 사용해서 학습하는 RLHF의 기본적인 setting부터

cs285_2023_fall_lec_21_slide_015 Fig. PART 2

Value-based, Offline RL로도 RLHF를 할 수 있는지? 까지 다룹니다.

cs285_2023_fall_lec_21_slide_026 Fig. PART 3

아무래도 RL분야의 대세가 Offline RL이며 Sergey 본인이 Offline RL for Natural Language Generation with Implicit Language Q Learning (ILQL)등의 교신저자이기 때문에 아예 part3를 value-based + offline으로 따로 뺀 것 같습니다.

이제 POMDP 얘기부터 간단하게 해보도록 하겠습니다.