政策改進定理

January 28, 2017

在強化學習中，策略改進是稱為策略迭代的算法的一部分，該算法試圖找到貝爾曼最優方程的近似解。Sutton 和 Barto 關於 RL 的書中第 84、85 頁提到了以下定理：

政策改進定理

給定兩個確定性策略和：

不等式的RHS : 代理人按照政策行事在當前狀態下，並且對於所有後續狀態都按照策略行事

不等式的LHS : 代理人按照政策行事從當前狀態開始。

索賠：

換句話說，是一個進步！ .

我很難理解這個證明。這將在下面討論：

證明： $$ V_\pi(s) \leq Q_\pi(s, \pi'(s)) = \mathbb{E}{\pi'}[R{t+1} + \gamma V_\pi(S_{t+1}) | S_t = s] $$

我被困在這裡。q 函數在策略上進行評估 . 既然如此，對政策的期望如何 ?

我的猜測如下：在 Sutton 和 Barto 給出的證明中，期望是及時展開的。在每個時間步，代理都遵循策略對於那個特定的時間步，然後跟隨從那時起。在這個過程的限制下，策略從到 . 只要期望內的回報表達式是有限的，治理策略就應該是 ; 只有在這個過程的限度內，治理政策才會轉變為 .

他們從來沒有把它拼出來，而是像這樣的表達：

意思是“在狀態開始時的預期折現值, 根據選擇動作為下一個時間步，並根據此後”，而：

意思是“在狀態開始時的預期折現值, 根據選擇動作對於接下來的兩個時間步長，並根據之後”等。所以我們真的有：

如果我們查看第 4.2 節“政策改進”的開頭，我們可以看到這等於. 他們有這兩種不同表達方式的原因是第一個是需要的，因為要完成證明，他們需要能夠談論以下內容對於越來越長的時間跨度，第二個是確定性策略的 Q 函數的定義。

引用自：https://stats.stackexchange.com/questions/258607

政策改進定理

相關問答