政策改進定理
在強化學習中,策略改進是稱為策略迭代的算法的一部分,該算法試圖找到貝爾曼最優方程的近似解。Sutton 和 Barto 關於 RL 的書中第 84、85 頁提到了以下定理:
政策改進定理
給定兩個確定性策略 $ \pi $ 和 $ \pi $ :
$ \forall s \in S, V_{\pi}(s) \leq Q_{\pi}(s, \pi'(s)) $
不等式的RHS : 代理人按照政策行事 $ \pi' $ 在當前狀態下,並且對於所有後續狀態都按照策略行事 $ \pi $
不等式的LHS : 代理人按照政策行事 $ \pi $ 從當前狀態開始。
索賠: $ \forall s \in S, V_\pi(s) \leq V_{\pi'}(s) $
換句話說, $ \pi' $ 是一個進步! $ pi $ .
我很難理解這個證明。這將在下面討論:
證明: $$ V_\pi(s) \leq Q_\pi(s, \pi'(s)) = \mathbb{E}{\pi'}[R{t+1} + \gamma V_\pi(S_{t+1}) | S_t = s] $$
我被困在這裡。q 函數在策略上進行評估 $ \pi $ . 既然如此,對政策的期望如何 $ \pi' $ ?
我的猜測如下:在 Sutton 和 Barto 給出的證明中,期望是及時展開的。在每個時間步,代理都遵循策略 $ \pi' $ 對於那個特定的時間步,然後跟隨 $ \pi $ 從那時起。在這個過程的限制下,策略從 $ \pi $ 到 $ \pi' $ . 只要期望內的回報表達式是有限的,治理策略就應該是 $ \pi $ ; 只有在這個過程的限度內,治理政策才會轉變為 $ \pi' $ .
他們從來沒有把它拼出來,而是像這樣的表達:
意思是“在狀態開始時的預期折現值, 根據選擇動作為下一個時間步,並根據此後”,而:
意思是“在狀態開始時的預期折現值, 根據選擇動作對於接下來的兩個時間步長,並根據之後”等。 所以我們真的有:
如果我們查看第 4.2 節“政策改進”的開頭,我們可以看到這等於. 他們有這兩種不同表達方式的原因是第一個是需要的,因為要完成證明,他們需要能夠談論以下內容對於越來越長的時間跨度,第二個是確定性策略的 Q 函數的定義。