激勵神經網絡中的 sigmoid 輸出單元,從線性的非歸一化對數概率開始𝑧=𝑤𝑇ℎ+𝑏和=在噸H+bz=w^Th+b和𝜙(𝑧)φ(和)phi(z)
**背景:**我正在學習 Ian Goodfellow 和 Yoshua Bengio 以及 Aaron Courville 的深度學習第 6 章。在第 6.2.2.2 節(可以在此處查看的 183 頁的第 182 頁)使用 sigmoid 來輸出是有動力的。
總結一些他們讓
在應用激活之前成為輸出神經元是前一個隱藏層的輸出,是權重向量,並且是一個標量偏差。輸入向量表示為(哪個是)的函數,輸出值表示為在哪裡是 sigmoid 函數。本書希望定義一個概率分佈使用價值. 從第 183 頁的第二段:
我們省略了對現在討論如何定義一個概率分佈使用價值. sigmoid 可以通過構建非歸一化概率分佈來激發,總和不等於 1。然後我們可以除以適當的常數以獲得有效的概率分佈。如果我們從假設非歸一化對數概率在和,我們可以取冪以獲得未歸一化的概率。然後我們進行歸一化,看到這產生了一個由 z 的 sigmoidal 變換控制的伯努利分佈:
**問題:**我對兩件事感到困惑,尤其是第一件事:
- 最初的假設來自哪裡?為什麼未歸一化的對數概率在和? 有人可以給我一些關於作者如何開始的直覺嗎?
- 最後一行如何跟隨?
有兩種可能的結果. 這非常重要,因為這個屬性改變了乘法的含義。有兩種可能的情況:
另外重要的是要注意非歸一化的對數概率是恆定的。該屬性源自主要假設。將任何確定性函數應用於常量值將產生常量輸出。當我們對所有可能的概率進行歸一化時,這個屬性將簡化最終公式,因為我們只需要知道並且對於它總是不變的。由於網絡以非歸一化對數概率輸出,我們將只需要一個輸出,因為另一個假設是恆定的。
接下來,我們對未歸一化的對數概率進行取冪,以獲得未歸一化的概率。
接下來,我們只是將概率歸一化,將每個非歸一化概率除以所有可能的非歸一化概率之和。
我們只對,因為這就是 sigmoid 函數的概率的含義。得到的函數乍一看不像sigmoid,但它們是相等的,很容易展示。
最後一條語句起初可能會令人困惑,但這只是表明最終概率函數是 sigmoid 的一種方式。這價值轉換到和到(或者我們可以說它不會改變)。
正如我們所看到的,它只是顯示兩者之間關係的方式和