Reinforcement-Learning

政策改進定理

  • January 28, 2017

在強化學習中,策略改進是稱為策略迭代的算法的一部分,該算法試圖找到貝爾曼最優方程的近似解。Sutton 和 Barto 關於 RL 的書中第 84、85 頁提到了以下定理:

政策改進定理

給定兩個確定性策略 $ \pi $ 和 $ \pi $ :

$ \forall s \in S, V_{\pi}(s) \leq Q_{\pi}(s, \pi'(s)) $

不等式的RHS : 代理人按照政策行事 $ \pi' $ 在當前狀態下,並且對於所有後續狀態都按照策略行事 $ \pi $

不等式的LHS : 代理人按照政策行事 $ \pi $ 從當前狀態開始。

索賠: $ \forall s \in S, V_\pi(s) \leq V_{\pi'}(s) $

換句話說, $ \pi' $ 是一個進步! $ pi $ .

我很難理解這個證明。這將在下面討論:

證明: $$ V_\pi(s) \leq Q_\pi(s, \pi'(s)) = \mathbb{E}{\pi'}[R{t+1} + \gamma V_\pi(S_{t+1}) | S_t = s] $$

我被困在這裡。q 函數在策略上進行評估 $ \pi $ . 既然如此,對政策的期望如何 $ \pi' $ ?

我的猜測如下:在 Sutton 和 Barto 給出的證明中,期望是及時展開的。在每個時間步,代理都遵循策略 $ \pi' $ 對於那個特定的時間步,然後跟隨 $ \pi $ 從那時起。在這個過程的限制下,策略從 $ \pi $ 到 $ \pi' $ . 只要期望內的回報表達式是有限的,治理策略就應該是 $ \pi $ ; 只有在這個過程的限度內,治理政策才會轉變為 $ \pi' $ .

他們從來沒有把它拼出來,而是像這樣的表達:

意思是“在狀態開始時的預期折現值, 根據選擇動作為下一個時間步,並根據此後”,而:

意思是“在狀態開始時的預期折現值, 根據選擇動作對於接下來的兩個時間步長,並根據之後”等。 所以我們真的有:

如果我們查看第 4.2 節“政策改進”的開頭,我們可以看到這等於. 他們有這兩種不同表達方式的原因是第一個是需要的,因為要完成證明,他們需要能夠談論以下內容對於越來越長的時間跨度,第二個是確定性策略的 Q 函數的定義。

引用自:https://stats.stackexchange.com/questions/258607

comments powered by Disqus

相關問答