Neural-Networks
交叉熵損失函數的不同定義
我從神經網絡和深度學習 dot com 教程開始學習神經網絡。特別是在第3 章中有一節關於交叉熵函數,並將交叉熵損失定義為:
然而,閱讀Tensorflow 的介紹,交叉熵損失被定義為:
(使用與上述相同的符號時)
然後四處尋找發生了什麼,我發現了另一組註釋:(https://cs231n.github.io/linear-classify/#softmax-classifier)它使用了完全不同的交叉熵損失定義,儘管這是softmax 分類器而不是神經網絡的時間。
有人可以向我解釋這裡發生了什麼嗎?順便說一句,為什麼會有差異。人們將交叉熵損失定義為什麼?是否有一些總體原則?
這三個定義本質上是相同的。
1)Tensorflow介紹,
- 對於二元分類, 它成為了
並且由於限制和, 可以改寫為
這與第 3 章相同。 3) 此外,如果是一個單熱向量(通常用於分類標籤)是唯一的非零元素,則對應樣本的交叉熵損失為
在cs231註釋中,一個樣本的交叉熵損失與softmax歸一化一起給出為