Machine-Learning

off-policy 和 on-policy 學習有什麼區別？

December 2, 2015

人工智能網站將 off-policy 和 on-policy 學習定義如下：

“一個離策略學習器獨立於代理的動作學習最優策略的價值。Q-learning 是一個離策略學習器。一個在策略學習器學習由代理執行的策略的價值，包括探索步驟。”

我想請您對此進行澄清，因為它們似乎對我沒有任何影響。這兩個定義似乎是相同的。我真正理解的是無模型和基於模型的學習，我不知道它們是否與問題有關。

最優策略如何獨立於代理的行為而學習？代理執行操作時是否學習了策略？

首先，代理沒有理由必須做貪婪的動作；代理可以探索，也可以遵循選項。這不是區分 on-policy 和 off-policy 學習的原因。

Q-learning 偏離策略的原因是它使用下一個狀態的 Q 值更新其 Q 值和貪婪的行動 . 換句話說，它估計了狀態-動作對的回報（總折扣未來獎勵），假設遵循了貪婪策略，儘管它沒有遵循貪婪策略。

SARSA 是 on-policy 的原因是它使用下一個狀態的 Q 值更新其 Q 值和當前政策的行動 . 假設繼續遵循當前政策，它估計狀態-動作對的回報。

如果當前策略是貪婪策略，那麼區別就消失了。但是，這樣的代理不會很好，因為它從不探索。

你看過這本書可以在網上免費獲得嗎？理查德 S. 薩頓和安德魯 G. 巴托。強化學習：簡介。第二版，麻省理工學院出版社，馬薩諸塞州劍橋，2018 年。

引用自：https://stats.stackexchange.com/questions/184657

相關問答

Machine-Learning

基礎模型：它是統計和機器學習的新範式嗎？

September 17, 2021

Machine-Learning

監督學習是強化學習的一個子集嗎？

September 23, 2018

Deep-Q 學習本質上是不穩定的嗎

June 12, 2018

Reinforcement-Learning

在強化學習中預測和控制什麼？

April 14, 2018

蒙特卡洛方法何時優於時間差異方法？

March 27, 2018

Reinforcement-Learning

為什麼我們不使用重要性抽樣進行一步 Q 學習？

March 19, 2018