Least-Squares
如何準確計算深度 Q 學習損失函數?
我對深度 Q 學習網絡的損失函數是如何訓練的有疑問。我正在使用具有線性輸出層和 relu 隱藏層的 2 層前饋網絡。
- 假設我有 4 個可能的操作。因此,我的網絡當前狀態的輸出是. 為了使其更具體,讓我們假設
- 現在我採取行動對應的值即第三個動作,並達到一個新的狀態.
- 接下來,我用狀態計算前向傳遞假設我在輸出層獲得以下值. 還說獎勵, 和.
- 損失是否為:
或者
或者
謝謝,對不起,我不得不以非常基本的方式寫出來……我對所有的符號感到困惑。(我認為正確的答案是第二個……)
再复習幾遍方程式後。我認為正確的損失如下:
我的理由是,一般情況下的 q-learning 更新規則只是更新特定的 q-value一對。
這個等式意味著更新只發生在一個特定的對於神經 q 網絡,這意味著僅針對與特定輸出單元相對應的一個特定輸出單元計算損失.
在提供的示例中和是.