Neural-Networks

神經網絡中的交叉熵成本函數

  • August 19, 2015

我正在查看本教程中的交叉熵成本函數:

$$ C = -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)] $$

我們到底在總結什麼?當然,結束了 $ x $ , 但 $ y $ 和 $ a $ 不要改變 $ x $ . 全部 $ x $ 是輸入到一個 $ a $ . $ a $ 甚至在上面的段落中定義為等式的總和的函數 $ w $ ‘沙 $ x $ 的。

還, $ n $ 被定義為這個特定神經元的輸入數量,對嗎?它被表述為*“訓練數據項的總數”*。


編輯:

我的想法是否正確

$$ C= -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)] $$

將是整個網絡的成本函數,而

$$ C = [y \ln a+(1−y)\ln(1−a)] $$

單個神經元的成本是多少?總和不應該超過每個輸出神經元嗎?

以下是我如何表達交叉熵損失

這裡,是訓練數據集中的輸入示例集,並且是這些輸入示例的相應標籤集。這表示給定輸入的神經網絡的輸出.

每一個為 0 或 1,輸出激活通常通過使用邏輯 sigmoid將其限制在開區間 (0, 1) 內。例如,對於單層網絡(相當於邏輯回歸),激活將由下式給出

在哪裡是一個權重矩陣並且是一個偏置向量。對於多層,您可以將激活函數擴展為類似在哪裡和是第一層的權重矩陣和偏差,並且是網絡中隱藏層的激活。 我使用 (i) 上標來表示示例,因為我發現它在 Andrew Ng 的機器學習課程中非常有效;有時人們將示例表示為矩陣中的列或行,但想法保持不變。

引用自:https://stats.stackexchange.com/questions/167787

comments powered by Disqus