在強化學習中預測和控制什麼？

April 14, 2018

在強化學習中，我看到了很多關於控制和預測的概念，比如蒙特卡洛預測和蒙特卡洛控制。

但我們實際上在預測和控制什麼？

預測和控制之間的區別與策略的目標有關。該政策描述了取決於當前狀態的行為方式，並且在文獻中經常被稱為, 採取行動的概率處於狀態時.

所以，我的問題是預測，預測什麼？

RL 中的預測任務是提供策略的地方，目標是衡量它的執行情況。也就是說，假設函數從任何給定狀態預測預期的總獎勵是固定的。

為了控制，控制什麼？

RL 中的控制任務是策略不固定，目標是找到最優策略。也就是找到策略最大化任何給定狀態的預期總獎勵。

基於價值函數的控制算法（蒙特卡洛控制就是一個例子）通常通過解決預測問題來工作，即它預測以不同方式行動的價值，並調整策略以在每一步選擇最佳行動。因此，基於價值的算法的輸出通常是一個近似最優的策略，以及遵循該策略的預期未來回報。

引用自：https://stats.stackexchange.com/questions/340462

在強化學習中預測和控制什麼？

相關問答