Neural-Networks

交叉熵損失函數的不同定義

  • July 14, 2016

我從神經網絡和深度學習 dot com 教程開始學習神經網絡。特別是在第3 章中有一節關於交叉熵函數,並將交叉熵損失定義為:

然而,閱讀Tensorflow 的介紹,交叉熵損失被定義為:

(使用與上述相同的符號時)

然後四處尋找發生了什麼,我發現了另一組註釋:(https://cs231n.github.io/linear-classify/#softmax-classifier)它使用了完全不同的交叉熵損失定義,儘管這是softmax 分類器而不是神經網絡的時間。

有人可以向我解釋這裡發生了什麼嗎?順便說一句,為什麼會有差異。人們將交叉熵損失定義為什麼?是否有一些總體原則?

這三個定義本質上是相同的。

1)Tensorflow介紹

  1. 對於二元分類, 它成為了

並且由於限制和, 可以改寫為

這與第 3 章相同。 3) 此外,如果是一個單熱向量(通常用於分類標籤)是唯一的非零元素,則對應樣本的交叉熵損失為

cs231註釋中,一個樣本的交叉熵損失與softmax歸一化一起給出為

引用自:https://stats.stackexchange.com/questions/223799

comments powered by Disqus