Neural-Networks
神經網絡中的交叉熵成本函數
我正在查看本教程中的交叉熵成本函數:
$$ C = -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)] $$
我們到底在總結什麼?當然,結束了 $ x $ , 但 $ y $ 和 $ a $ 不要改變 $ x $ . 全部 $ x $ 是輸入到一個 $ a $ . $ a $ 甚至在上面的段落中定義為等式的總和的函數 $ w $ ‘沙 $ x $ 的。
還, $ n $ 被定義為這個特定神經元的輸入數量,對嗎?它被表述為*“訓練數據項的總數”*。
編輯:
我的想法是否正確
$$ C= -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)] $$
將是整個網絡的成本函數,而
$$ C = [y \ln a+(1−y)\ln(1−a)] $$
單個神經元的成本是多少?總和不應該超過每個輸出神經元嗎?
以下是我如何表達交叉熵損失:
這裡,是訓練數據集中的輸入示例集,並且是這些輸入示例的相應標籤集。這表示給定輸入的神經網絡的輸出.
每一個為 0 或 1,輸出激活通常通過使用邏輯 sigmoid將其限制在開區間 (0, 1) 內。例如,對於單層網絡(相當於邏輯回歸),激活將由下式給出
在哪裡是一個權重矩陣並且是一個偏置向量。對於多層,您可以將激活函數擴展為類似在哪裡和是第一層的權重矩陣和偏差,並且是網絡中隱藏層的激活。 我使用 (i) 上標來表示示例,因為我發現它在 Andrew Ng 的機器學習課程中非常有效;有時人們將示例表示為矩陣中的列或行,但想法保持不變。