(yet) From AlphaGo to MuZero
13 Oct 2024< 목차 >
This is why i have been studying Machine Learning.
Overview
Fig.
AlphaGo
Experimental Results
Fig.
Fig.
Fig.
Fig.
Fig.
Fig.
Fig.
Fig.
Fig.
Fig.
Fig.
Fig.
AlphaGo Zero
Experimental Results
Fig.
Fig.
Fig.
Fig.
Fig.
Fig.
AlphaZero
Experimental Results
Fig.
Fig.
MuZero
Experimental Results
Fig.
Fig.
Fig.
Fig.
About DeepMind's Approach
2024년 10월에 열린 Nobel Prize 2024는 매우 충격적이었다. 아마 나 뿐만 아니라 대부분의 사람들에게 그랬을 것이다.
Fig. tweet
사실 나는 과학이나 순수문학 등에 조예가 없는 소위 근본없는 놈이기에 누가 노벨상을 타는지 그동안은 관심도 없었지만, Geoffrey Hinton 등이 노벨 물리학상을, 그리고 Demis Hassabis 등 AlphaFold 개발진이 화학상을 받았다는 것은 충격이었다. 한국인으로써 한강이 문학상을 수상했다는 뉴스도 있었지만, 아무래도 같은 분야를 연구하는 한 사람으로서 보수적일 수 밖에 없는 위원회가 AI를 이용한 work들에 수상을 한 것은 AGI가 가까이 왔다는 것을 모두가 인정하는 것이 아닐까 하는 생각이 들기 때문이다. (무섭기도 하고 여러 복잡한 감정이 들었다)
물론 두 분야 모두 합당하다고 생각할 수 있다. AGI level을 5개로 나눴을 때 가장 기본이 되는 entry level의 agi를 의미하는 chatgpt의 기반을 hinton et al.이 닦았다고 해도 과언이 아니기 때문이다. 물론 chatgpt가 아직 순수 학문에서 discovery를 했다거나 하는건 아니지만 (신약 개발, 새로운 물리 법칙 등), 앞으로 그 가능성을 높게 평가하고 범인에게 알렸다는 점에서 의미가 있는 것 같고, AlphaFold는 듣기로는 화학 분야에서 수년의 세월이 걸리는 단백질 접기 (protein folding) 분야를 몇초단위로 줄여 인간이 질병을 정복하는 여정에 기여를 했기 때문이다.
나는 AlphaFold에 대해서는 솔직히 그동안 “나랑은 큰 상관이 없다”는 생각에 논문도 읽어보지 않았다. 그래서 이번을 계기로 white paper와 수상자들의 podcast 같은걸 찾아보는 좀 시간을 가졌는데, Demis Hassabis와 Lex Fridman의 인터뷰 중 나온 내용을 기록해두면 좋을 것 같아 몇가지만 좀 적어보려고 한다.
Fig. tweet
Fig. tweet
References
- Papers
- (AlphaGo) Mastering the game of Go with deep neural networks and tree search
- (AlphaGo Zero) Mastering the game of Go without human knowledge
- (AlphaZero) Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
- (MuZero) Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model
- MuZero with Self-competition for Rate Control in VP9 Video Compression
- MuZero, AlphaZero, and AlphaDev: Optimizing computer systems
- Lectures
- Videos
- Others
- tmp resources