Thursday, February 25, 2021

Reinforcement Learning 3:Lilian Weng

強化學習(三):Lilian Weng

2020/04/17

-----


// [1]。

-----


圖一,強化學習的基礎 [1]。

-----


圖二,DP、MC、TD、PG [1]。

-----


圖三,SARS [1]。

-----


圖四,強化學習三要素 [1]。

-----


圖五,Reward Function and Policy [1]。

-----


圖六,Value Function [1]。

-----


圖七,State Value and Action Value [1]。

-----


圖八,Optimal Value and Policy [1]。

-----


圖九,Markov Decision Process [1]。

-----


圖十,圖解 Markov Decision Process [1]。

-----


圖十一,Bellman Equations [1]。

-----


圖十二,圖解 Bellman Expectation Equations [1]。

-----


圖十三,Bellman Expectation Equations [1]。

-----


圖十四,Bellman Optimality Equations [1]。

-----


圖十五,Policy Evaluation and Policy Improvement [1]。

-----


圖十六,Policy Iteration [1]。

-----

References

[1] A (Long) Peek into Reinforcement Learning
https://lilianweng.github.io/lil-log/2018/02/19/a-long-peek-into-reinforcement-learning.html

[2] 強化學習(二):綜述型論文
http://hemingwang.blogspot.com/2020/04/reinforcement-learningsurvey-paper.html

[3] 強化學習(一):簡介
http://hemingwang.blogspot.com/2020/04/reinforcement-learningan-introduction.html


No comments:

Post a Comment

Note: Only a member of this blog may post a comment.