Machine-Learning

交叉熵的微分

  • May 2, 2017

我一直在嘗試在我的計算機上創建一個用於訓練神經網絡的程序。對於有問題的網絡,我決定使用交叉熵誤差函數:

在哪裡是神經元的目標輸出, 和是那個神經元的輸出,試圖預測.

我想知道什麼是為一些神經元. 我的直覺(加上我對微積分的有限知識)使我相信這個值應該是.

然而,這似乎並不正確。交叉熵通常與 softmax 函數一起使用,這樣

其中 z 是 softmax 層中所有神經元的輸入集(參見此處)。 從這個文件中,我收集到:

根據這個問題

但這與我之前的猜測相衝突. 為什麼?

與我之前的解決方案直接矛盾 那麼哪個(如果有的話)解決方案是正確的,為什麼?

你的是正確的,但是應該

什麼時候,使用我們在帖子中給出的結果

什麼時候

所以總和是

自從是一個單熱向量,所以

也看到這個問題

引用自:https://stats.stackexchange.com/questions/277203

comments powered by Disqus