Markov-Process
為什麼總有至少一項政策優於或等於所有其他政策?
強化學習:簡介。 第二版,正在進行中。,Richard S. Sutton 和 Andrew G. Barto (c) 2012,第 67-68 頁。
解決強化學習任務,粗略地說,就是找到一個從長遠來看能獲得很多回報的策略。對於有限的 MDP,我們可以通過以下方式精確定義最優策略。價值函數定義了策略的部分排序。一項政策被定義為優於或等於策略如果其預期收益大於或等於, 對於所有狀態。換句話說,當且僅當, 對所有人. **總有至少一項政策優於或等於所有其他政策。**這是一個最優策略。
為什麼總有至少一項政策優於或等於所有其他政策?
剛剛引用的部分,同一段實際上告訴你這個政策是什麼:它是在每個州採取最佳行動的政策。在 MDP 中,我們在一種狀態下採取的行動不會影響在其他狀態下採取的行動的獎勵,因此我們可以簡單地逐個狀態地最大化策略。