為什麼總有至少一項政策優於或等於所有其他政策？

April 17, 2016

強化學習：簡介。第二版，正在進行中。，Richard S. Sutton 和 Andrew G. Barto (c) 2012，第 67-68 頁。

解決強化學習任務，粗略地說，就是找到一個從長遠來看能獲得很多回報的策略。對於有限的 MDP，我們可以通過以下方式精確定義最優策略。價值函數定義了策略的部分排序。一項政策被定義為優於或等於策略如果其預期收益大於或等於, 對於所有狀態。換句話說，當且僅當，對所有人. **總有至少一項政策優於或等於所有其他政策。**這是一個最優策略。

為什麼總有至少一項政策優於或等於所有其他政策？

剛剛引用的部分，同一段實際上告訴你這個政策是什麼：它是在每個州採取最佳行動的政策。在 MDP 中，我們在一種狀態下採取的行動不會影響在其他狀態下採取的行動的獎勵，因此我們可以簡單地逐個狀態地最大化策略。

引用自：https://stats.stackexchange.com/questions/207780

comments powered by Disqus

相關問答

Machine-Learning

監督學習是強化學習的一個子集嗎？

September 23, 2018

Deep-Q 學習本質上是不穩定的嗎

June 12, 2018

Reinforcement-Learning

在強化學習中預測和控制什麼？

April 14, 2018

蒙特卡洛方法何時優於時間差異方法？

March 27, 2018

Reinforcement-Learning

為什麼我們不使用重要性抽樣進行一步 Q 學習？

March 19, 2018

Reinforcement-Learning

在 Dyna-Q 中進行規劃是一種體驗回放的形式嗎？

February 25, 2018