為什麼使用 sigmoid 函數而不是其他函數？

July 24, 2015

為什麼事實上的標準 sigmoid 函數，，在（非深度）神經網絡和邏輯回歸中如此受歡迎？

為什麼我們不使用許多其他可導出函數，計算時間更快或衰減更慢（所以梯度消失的情況更少）。維基百科上很少有關於 sigmoid 函數的例子。我最喜歡的慢衰減和快速計算之一是.

編輯

這個問題與具有優點/缺點的神經網絡中的激活函數的綜合列表不同，因為我只對“為什麼”感興趣並且只對 sigmoid 感興趣。

從這個答案中引用我自己到另一個問題：

在Pattern Recognition and Machine Learning (Springer 2006) 的第 4.2 節中，Bishop 表明，logit 在二分類的貝葉斯處理中自然地以後驗概率分佈的形式出現。然後，他繼續表明，離散分佈特徵以及指數分佈族的一個子集也是如此。對於多類分類，logit 泛化為歸一化指數或 softmax 函數。

這就解釋了為什麼在邏輯回歸中使用這個 sigmoid。

關於神經網絡，這篇博客文章解釋瞭如何對不同的非線性（包括 logit / softmax 和神經網絡中使用的概率）給出統計解釋，從而給出動機。其基本思想是多層神經網絡可以看作是廣義線性模型的層次結構；據此，激活函數是鏈接函數，它又對應於不同的分佈假設。

引用自：https://stats.stackexchange.com/questions/162988

comments powered by Disqus

相關問答

Machine-Learning

一個神經網絡可以只用111隱藏層解決了什麼問題？

February 8, 2022

Machine-Learning

深度學習的模擬退火：為什麼無梯度統計學習不是主流？

January 5, 2022

Machine-Learning

哪個是第一位的 - 領域專業知識或實驗方法？

December 30, 2021

Neural-Networks

神經網絡可以處理負輸入和零輸入嗎？

December 22, 2021

Neural-Networks

在實踐中如何實現神經網絡參數的先驗分佈？

September 28, 2021

Machine-Learning

基礎模型：它是統計和機器學習的新範式嗎？

September 17, 2021