強化學習中動態規劃和時間差異學習的區別

February 15, 2012

在強化學習中，動態規劃和時間差分學習有什麼區別？

DP 通過遞歸求解最優策略或價值函數。它需要馬爾可夫決策過程（MDP）或世界模型的知識，以便可以執行遞歸。它通常歸類為“計劃”而不是“學習”，因為您已經了解 MDP，並且只需要弄清楚要做什麼（最佳）。

TD 是無模型的：它不需要世界模型的知識。它是迭代的，基於模擬的，並且通過引導學習，即使用其他狀態或動作的值來估計狀態或動作的值。

有關詳細信息，請參閱：

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

引用自：https://stats.stackexchange.com/questions/23407

comments powered by Disqus

強化學習中動態規劃和時間差異學習的區別

相關問答