如何準確計算深度 Q 學習損失函數？

December 2, 2016

我對深度 Q 學習網絡的損失函數是如何訓練的有疑問。我正在使用具有線性輸出層和 relu 隱藏層的 2 層前饋網絡。

假設我有 4 個可能的操作。因此，我的網絡當前狀態的輸出是. 為了使其更具體，讓我們假設

現在我採取行動對應的值即第三個動作，並達到一個新的狀態.

接下來，我用狀態計算前向傳遞假設我在輸出層獲得以下值. 還說獎勵，和.

損失是否為：

或者

或者

謝謝，對不起，我不得不以非常基本的方式寫出來……我對所有的符號感到困惑。（我認為正確的答案是第二個……）

再复習幾遍方程式後。我認為正確的損失如下：

我的理由是，一般情況下的 q-learning 更新規則只是更新特定的 q-value一對。

這個等式意味著更新只發生在一個特定的對於神經 q 網絡，這意味著僅針對與特定輸出單元相對應的一個特定輸出單元計算損失.

在提供的示例中和是.

引用自：https://stats.stackexchange.com/questions/249355

相關問答

Machine-Learning

為什麼我們更關心機器學習中的測試錯誤而不是預期的測試錯誤？

July 28, 2021

Machine-Learning

XGboost 和深度學習模型中 Tweedie 或泊松損失/目標函數的用途是什麼

October 19, 2020

Machine-Learning

（為什麼）絕對損失不是正確的計分規則嗎？

June 23, 2020

Machine-Learning

機器學習中的損失函數——如何約束？

April 30, 2020

Neural-Networks

損失函數的二階近似（深度學習書籍，7.33）

April 24, 2019

Neural-Networks

能罪(𝑥)罪⁡(X)sin(x)在深度學習中用作激活？

April 12, 2019