Machine-Learning
交叉熵的微分
我一直在嘗試在我的計算機上創建一個用於訓練神經網絡的程序。對於有問題的網絡,我決定使用交叉熵誤差函數:
在哪裡是神經元的目標輸出, 和是那個神經元的輸出,試圖預測.
我想知道什麼是為一些神經元. 我的直覺(加上我對微積分的有限知識)使我相信這個值應該是.
然而,這似乎並不正確。交叉熵通常與 softmax 函數一起使用,這樣
其中 z 是 softmax 層中所有神經元的輸入集(參見此處)。 從這個文件中,我收集到:
根據這個問題:
但這與我之前的猜測相衝突. 為什麼?
與我之前的解決方案直接矛盾 那麼哪個(如果有的話)解決方案是正確的,為什麼?
你的是正確的,但是應該
什麼時候,使用我們在帖子中給出的結果
什麼時候
所以總和是
自從是一個單熱向量,所以
也看到這個問題。