Softmax
什麼是梯度對數歸一化器?
在 wiki 中,softmax 函數被定義為分類概率分佈的梯度對數歸一化器。此處找到對數歸一化器的部分解釋,但 梯度對數歸一化器代表什麼?
使用維基百科頁面 ( https://en.wikipedia.org/wiki/Exponential_family ) 中的符號,指數族是具有 pmfs/pdfs 的概率分佈族,可以寫為(注意,可以是向量值):
在哪裡是自然參數,是充分的統計量,並且是日誌規範化器(有時稱為日誌分區函數)。原因被稱為對數規範化器,因為可以驗證,在連續情況下,要使其成為有效的 pdf,我們必須有
在離散情況下,要使其成為有效的 pmf,我們必須有
在每種情況下,我們注意到和是分佈的歸一化常數,因此稱為對數歸一化器。 現在來看看softmax函數和維分類分佈,我們將不得不使用分佈的特定參數化。即,讓是這樣的和, 並定義(讓)。這個分佈的 pmf 是(讓是一個熱向量,即和為了):
要將其寫成指數族,請注意,,, 和, 所以:
現在讓我們建議性地寫, 這樣我們就可以寫. 然後日誌規範化器變為
取關於的偏導數, 我們發現 揭示對數歸一化器的梯度確實是softmax函數: