政策改進定理
在強化學習中,策略改進是稱為策略迭代的算法的一部分,該算法試圖找到貝爾曼最優方程的近似解。Sutton 和 Barto 關於 RL 的書中第 84、85 頁提到了以下定理:
政策改進定理
給定兩個確定性策略 π 和 π :
∀s∈S,Vπ(s)≤Qπ(s,π′(s))
不等式的RHS : 代理人按照政策行事 π′ 在當前狀態下,並且對於所有後續狀態都按照策略行事 π
不等式的LHS : 代理人按照政策行事 π 從當前狀態開始。
索賠: ∀s∈S,Vπ(s)≤Vπ′(s)
換句話說, π′ 是一個進步! pi .
我很難理解這個證明。這將在下面討論:
證明: $$ V_\pi(s) \leq Q_\pi(s, \pi'(s)) = \mathbb{E}{\pi'}[R{t+1} + \gamma V_\pi(S_{t+1}) | S_t = s] $$
我被困在這裡。q 函數在策略上進行評估 π . 既然如此,對政策的期望如何 π′ ?
我的猜測如下:在 Sutton 和 Barto 給出的證明中,期望是及時展開的。在每個時間步,代理都遵循策略 π′ 對於那個特定的時間步,然後跟隨 π 從那時起。在這個過程的限制下,策略從 π 到 π′ . 只要期望內的回報表達式是有限的,治理策略就應該是 π ; 只有在這個過程的限度內,治理政策才會轉變為 π′ .
他們從來沒有把它拼出來,而是像這樣的表達:
意思是“在狀態開始時的預期折現值, 根據選擇動作為下一個時間步,並根據此後”,而:
意思是“在狀態開始時的預期折現值, 根據選擇動作對於接下來的兩個時間步長,並根據之後”等。 所以我們真的有:
如果我們查看第 4.2 節“政策改進”的開頭,我們可以看到這等於. 他們有這兩種不同表達方式的原因是第一個是需要的,因為要完成證明,他們需要能夠談論以下內容對於越來越長的時間跨度,第二個是確定性策略的 Q 函數的定義。