Reinforcement-Learning
在強化學習中預測和控制什麼?
在強化學習中,我看到了很多關於控制和預測的概念,比如蒙特卡洛預測和蒙特卡洛控制。
但我們實際上在預測和控制什麼?
預測和控制之間的區別與策略的目標有關。該政策描述了取決於當前狀態的行為方式,並且在文獻中經常被稱為, 採取行動的概率處於狀態時.
所以,我的問題是預測,預測什麼?
RL 中的預測任務是提供策略的地方,目標是衡量它的執行情況。也就是說,假設函數從任何給定狀態預測預期的總獎勵是固定的。
為了控制,控制什麼?
RL 中的控制任務是策略不固定,目標是找到最優策略。也就是找到策略最大化任何給定狀態的預期總獎勵。
基於價值函數的控制算法(蒙特卡洛控制就是一個例子)通常通過解決預測問題來工作,即它預測以不同方式行動的價值,並調整策略以在每一步選擇最佳行動。因此,基於價值的算法的輸出通常是一個近似最優的策略,以及遵循該策略的預期未來回報。