Reinforcement-Learning
強化學習中動態規劃和時間差異學習的區別
在強化學習中,動態規劃和時間差分學習有什麼區別?
DP 通過遞歸求解最優策略或價值函數。它需要馬爾可夫決策過程(MDP)或世界模型的知識,以便可以執行遞歸。它通常歸類為“計劃”而不是“學習”,因為您已經了解 MDP,並且只需要弄清楚要做什麼(最佳)。
TD 是無模型的:它不需要世界模型的知識。它是迭代的,基於模擬的,並且通過引導學習,即使用其他狀態或動作的值來估計狀態或動作的值。
有關詳細信息,請參閱: