Reinforcement-Learning

Q 學習與擬合 Q 迭代

  • November 29, 2015

我正在閱讀強化學習背景下的 Q-Learning - 我知道 q-learning 是在線學習的一種形式,我們在其中得到一系列元組作為輸入。我正在關注 udacity https://www.udacity.com/course/machine-learning-reinforcement-learning--ud820 和這份調查報告:https ://www.jair.org/media/301/live-301-1562 -jair.pdf

我也了解值迭代(VI)和擬合值迭代(FVI)。我的問題是 Fitted Q-iteration 是否僅僅意味著具有某種狀態空間近似的 Q-Learning?就像 FVI 是狀態空間的線性近似的 VI?

你說的對。這意味著Q函數是線性逼近的。

讓是一個狀態空間並且成為一個行動空間。在哪裡, 是特徵向量和.

假設,那是真正的 Q 值函數。現在我們可以嘗試用下面的估計函數來近似它:

所以你可能想為狀態-動作對製作特徵,而不是只為狀態。微調向量,您可以使用梯度下降方法。有關此問題的更多信息,請參閱Sutton & Barto,使用函數逼近進行控制。

引用自:https://stats.stackexchange.com/questions/184169

comments powered by Disqus

相關問答