Reinforcement-Learning

強化學習中動態規劃和時間差異學習的區別

  • February 15, 2012

在強化學習中,動態規劃和時間差分學習有什麼區別?

DP 通過遞歸求解最優策略或價值函數。它需要馬爾可夫決策過程(MDP)或世界模型的知識,以便可以執行遞歸。它通常歸類為“計劃”而不是“學習”,因為您已經了解 MDP,並且只需要弄清楚要做什麼(最佳)。

TD 是無模型的:它不需要世界模型的知識。它是迭代的,基於模擬的,並且通過引導學習,即使用其他狀態或動作的值來估計狀態或動作的值。

有關詳細信息,請參閱:

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

引用自:https://stats.stackexchange.com/questions/23407

comments powered by Disqus

相關問答