(yet) From AlphaGo to MuZero

< 목차 >

Overview
AlphaGo
- Experimental Results
AlphaGo Zero
- Experimental Results
AlphaZero
- Experimental Results
MuZero
- Experimental Results
About DeepMind's Approach
References

This is why i have been studying Machine Learning.

Overview

deepmind_alphago_to_muzero Fig.

AlphaGo

Experimental Results

alphago_paper_fig1 Fig.

alphago_paper_fig2 Fig.

alphago_paper_fig3 Fig.

alphago_paper_fig4 Fig.

alphago_paper_fig5 Fig.

alphago_paper_fig6 Fig.

alphago_paper_table3 Fig.

alphago_paper_table4 Fig.

alphago_paper_table5 Fig.

alphago_paper_table6 Fig.

alphago_paper_table7 Fig.

alphago_paper_table8 Fig.

AlphaGo Zero

Experimental Results

alphago_zero_paper_fig1 Fig.

alphago_zero_paper_fig2 Fig.

alphago_zero_paper_fig3 Fig.

alphago_zero_paper_fig4 Fig.

alphago_zero_paper_fig5 Fig.

alphago_zero_paper_fig6 Fig.

AlphaZero

Experimental Results

alphazero_paper_fig1 Fig.

alphazero_paper_fig2 Fig.

MuZero

Experimental Results

muzero_paper_fig1 Fig.

muzero_paper_fig2 Fig.

muzero_paper_table1 Fig.

muzero_paper_fig3 Fig.

About DeepMind's Approach

2024년 10월에 열린 Nobel Prize 2024는 매우 충격적이었다. 아마 나 뿐만 아니라 대부분의 사람들에게 그랬을 것이다.

nobel_prize_chemistry_announcement_fig Fig. tweet

사실 나는 과학이나 순수문학 등에 조예가 없는 소위 근본없는 놈이기에 누가 노벨상을 타는지 그동안은 관심도 없었지만, Geoffrey Hinton 등이 노벨 물리학상을, 그리고 Demis Hassabis 등 AlphaFold 개발진이 화학상을 받았다는 것은 충격이었다. 한국인으로써 한강이 문학상을 수상했다는 뉴스도 있었지만, 아무래도 같은 분야를 연구하는 한 사람으로서 보수적일 수 밖에 없는 위원회가 AI를 이용한 work들에 수상을 한 것은 AGI가 가까이 왔다는 것을 모두가 인정하는 것이 아닐까 하는 생각이 들기 때문이다. (무섭기도 하고 여러 복잡한 감정이 들었다)

물론 두 분야 모두 합당하다고 생각할 수 있다. AGI level을 5개로 나눴을 때 가장 기본이 되는 entry level의 agi를 의미하는 chatgpt의 기반을 hinton et al.이 닦았다고 해도 과언이 아니기 때문이다. 물론 chatgpt가 아직 순수 학문에서 discovery를 했다거나 하는건 아니지만 (신약 개발, 새로운 물리 법칙 등), 앞으로 그 가능성을 높게 평가하고 범인에게 알렸다는 점에서 의미가 있는 것 같고, AlphaFold는 듣기로는 화학 분야에서 수년의 세월이 걸리는 단백질 접기 (protein folding) 분야를 몇초단위로 줄여 인간이 질병을 정복하는 여정에 기여를 했기 때문이다.

나는 AlphaFold에 대해서는 솔직히 그동안 “나랑은 큰 상관이 없다”는 생각에 논문도 읽어보지 않았다. 그래서 이번을 계기로 white paper와 수상자들의 podcast 같은걸 찾아보는 좀 시간을 가졌는데, Demis Hassabis와 Lex Fridman의 인터뷰 중 나온 내용을 기록해두면 좋을 것 같아 몇가지만 좀 적어보려고 한다.

david_silver_slide_rl_conf_2024_fig1 Fig. tweet

david_silver_slide_rl_conf_2024_fig2 Fig. tweet

Notes

(yet) From AlphaGo to MuZero

Overview

AlphaGo

Experimental Results

AlphaGo Zero

Experimental Results

AlphaZero

Experimental Results

MuZero

Experimental Results

About DeepMind's Approach

References