Machine-Learning
off-policy 和 on-policy 學習有什麼區別?
人工智能網站將 off-policy 和 on-policy 學習定義如下:
“一個離策略學習器獨立於代理的動作學習最優策略的價值。Q-learning 是一個離策略學習器。一個在策略學習器學習由代理執行的策略的價值,包括探索步驟。”
我想請您對此進行澄清,因為它們似乎對我沒有任何影響。這兩個定義似乎是相同的。我真正理解的是無模型和基於模型的學習,我不知道它們是否與問題有關。
最優策略如何獨立於代理的行為而學習?代理執行操作時是否學習了策略?
首先,代理沒有理由必須做貪婪的動作;代理可以探索,也可以遵循選項。這不是區分 on-policy 和 off-policy 學習的原因。
Q-learning 偏離策略的原因是它使用下一個狀態的 Q 值更新其 Q 值 $ s' $ 和貪婪的行動 $ a' $ . 換句話說,它估計了狀態-動作對的回報(總折扣未來獎勵),假設遵循了貪婪策略,儘管它沒有遵循貪婪策略。
SARSA 是 on-policy 的原因是它使用下一個狀態的 Q 值更新其 Q 值 $ s' $ 和當前政策的行動 $ a'' $ . 假設繼續遵循當前政策,它估計狀態-動作對的回報。
如果當前策略是貪婪策略,那麼區別就消失了。但是,這樣的代理不會很好,因為它從不探索。
你看過這本書可以在網上免費獲得嗎? 理查德 S. 薩頓和安德魯 G. 巴托。強化學習:簡介。第二版,麻省理工學院出版社,馬薩諸塞州劍橋,2018 年。