Neural-Networks

神經網絡中的 tanh 與 sigmoid

  • March 18, 2015

對於我仍在加快速度這一事實,我提前道歉。我試圖了解將 tanh(映射 -1 到 1)與 sigmoid(映射 0 到 1)用於我的神經元激活函數的優缺點。從我的閱讀來看,這聽起來像是一件微不足道的事情。在我的問題的實踐中,我發現 sigmoid 更容易訓練,奇怪的是,sigmoid 似乎更好地找到了通用解決方案。我的意思是,當 sigmoid 版本完成訓練後,它在參考(未經訓練的)數據集上表現良好,而 tanh 版本似乎能夠在訓練數據上獲得正確答案,而在參考上表現不佳。這適用於相同的網絡架構。

我的一個直覺是,使用 sigmoid,神經元更容易幾乎完全關閉,因此不會為後續層提供輸入。tanh 在這裡比較困難,因為它需要完美地取消它的輸入,否則它總是給下一層賦值。也許這種直覺是錯誤的。

長帖。最重要的是,交易是什麼,它應該有很大的不同嗎?

在 Symon Haykin 的“神經網絡:綜合基礎”一書中,我引用了以下解釋:

為了最小化學習時間,應避免使用非零均值輸入。現在,就信號向量而言應用於多層感知器的第一個隱藏層中的神經元,很容易從每個元素中去除均值在應用到網絡之前。但是應用於網絡其餘隱藏層和輸出層中神經元的信號呢?這個問題的答案在於網絡中使用的激活函數的類型。如果激活函數是非對稱的,比如sigmoid函數,每個神經元的輸出被限制在區間內. 這種選擇為位於網絡第一層之外的那些神經元引入了*系統偏差的來源。*為了克服這個問題,我們需要使用反對稱激活函數,例如雙曲正切函數。通過後一種選擇,允許每個神經元的輸出在區間內假設為正值和負值,在這種情況下,它的均值很可能為零。如果網絡連通性很大,使用反對稱激活函數的反向傳播學習可以比使用非對稱激活函數的類似過程產生更快的收斂,這也有經驗證據 (LeCun et al. 1991)。

引用的參考文獻是:

  • Y. LeCun、I. Kanter 和 SASolla:“誤差曲面的二階屬性:學習時間和泛化”,神經信息處理系統進展,第一卷。3,第 918-924 頁,1991 年。

另一個有趣的參考如下:

  • Y. LeCun、L. Bottou、G. Orr 和 K. Muller:“ Efficient BackProp ”,在 Orr, G. 和 Muller K.(編輯),神經網絡:交易技巧,Springer,1998 年

引用自:https://stats.stackexchange.com/questions/142348

comments powered by Disqus

相關問答