激勵神經網絡中的 sigmoid 輸出單元，從線性的非歸一化對數概率開始𝑧=𝑤𝑇ℎ+𝑏和=在噸H+bz=w^Th+b和𝜙(𝑧)φ(和)phi(z)

March 24, 2017

**背景：**我正在學習 Ian Goodfellow 和 Yoshua Bengio 以及 Aaron Courville 的深度學習第 6 章。在第 6.2.2.2 節（可以在此處查看的 183 頁的第 182 頁）使用 sigmoid 來輸出是有動力的。

總結一些他們讓

在應用激活之前成為輸出神經元是前一個隱藏層的輸出，是權重向量，並且是一個標量偏差。輸入向量表示為（哪個是）的函數，輸出值表示為在哪裡是 sigmoid 函數。本書希望定義一個概率分佈使用價值. 從第 183 頁的第二段：

我們省略了對現在討論如何定義一個概率分佈使用價值. sigmoid 可以通過構建非歸一化概率分佈來激發，總和不等於 1。然後我們可以除以適當的常數以獲得有效的概率分佈。如果我們從假設非歸一化對數概率在和，我們可以取冪以獲得未歸一化的概率。然後我們進行歸一化，看到這產生了一個由 z 的 sigmoidal 變換控制的伯努利分佈：

**問題：**我對兩件事感到困惑，尤其是第一件事：

最初的假設來自哪裡？為什麼未歸一化的對數概率在和? 有人可以給我一些關於作者如何開始的直覺嗎?

最後一行如何跟隨？

有兩種可能的結果. 這非常重要，因為這個屬性改變了乘法的含義。有兩種可能的情況：

另外重要的是要注意非歸一化的對數概率是恆定的。該屬性源自主要假設。將任何確定性函數應用於常量值將產生常量輸出。當我們對所有可能的概率進行歸一化時，這個屬性將簡化最終公式，因為我們只需要知道並且對於它總是不變的。由於網絡以非歸一化對數概率輸出，我們將只需要一個輸出，因為另一個假設是恆定的。

接下來，我們對未歸一化的對數概率進行取冪，以獲得未歸一化的概率。

接下來，我們只是將概率歸一化，將每個非歸一化概率除以所有可能的非歸一化概率之和。

我們只對，因為這就是 sigmoid 函數的概率的含義。得到的函數乍一看不像sigmoid，但它們是相等的，很容易展示。

最後一條語句起初可能會令人困惑，但這只是表明最終概率函數是 sigmoid 的一種方式。這價值轉換到和到（或者我們可以說它不會改變）。

正如我們所看到的，它只是顯示兩者之間關係的方式和

引用自：https://stats.stackexchange.com/questions/269575

激勵神經網絡中的 sigmoid 輸出單元，從線性的非歸一化對數概率開始𝑧=𝑤𝑇ℎ+𝑏和=在噸H+bz=w^Th+b和𝜙(𝑧)φ(和)phi(z)

相關問答

損失函數的二階近似（深度學習書籍，7.33）

能罪(𝑥)罪⁡(X)sin(x)在深度學習中用作激活？

MNIST 數字識別：僅使用完全連接的 NN，我們能獲得的最佳效果是什麼？（沒有CNN）

高斯 VAE 的優化是否合適？

有沒有功能eX/(1+eX)eX/(1+eX)e^x/(1+e^x)有標準的名字嗎？

為什麼我的 LSTM 需要這麼長時間來訓練？