Logistic
為什麼使用 sigmoid 函數而不是其他函數?
為什麼事實上的標準 sigmoid 函數,,在(非深度)神經網絡和邏輯回歸中如此受歡迎?
為什麼我們不使用許多其他可導出函數,計算時間更快或衰減更慢(所以梯度消失的情況更少)。維基百科上很少有關於 sigmoid 函數的例子。我最喜歡的慢衰減和快速計算之一是.
編輯
這個問題與具有優點/缺點的神經網絡中的激活函數的綜合列表不同,因為我只對“為什麼”感興趣並且只對 sigmoid 感興趣。
從這個答案中引用我自己到另一個問題:
在Pattern Recognition and Machine Learning (Springer 2006) 的第 4.2 節中,Bishop 表明,logit 在二分類的貝葉斯處理中自然地以後驗概率分佈的形式出現。然後,他繼續表明,離散分佈特徵以及指數分佈族的一個子集也是如此。對於多類分類,logit 泛化為歸一化指數或 softmax 函數。
這就解釋了為什麼在邏輯回歸中使用這個 sigmoid。
關於神經網絡,這篇博客文章解釋瞭如何對不同的非線性(包括 logit / softmax 和神經網絡中使用的概率)給出統計解釋,從而給出動機。其基本思想是多層神經網絡可以看作是廣義線性模型的層次結構;據此,激活函數是鏈接函數,它又對應於不同的分佈假設。