Neural-Networks

ReLU 函數是什麼時候首次在神經網絡中使用的?

  • February 3, 2020

ReLU 函數是什麼時候首次在神經網絡中使用的?

通過 ReLU,我的意思是函數 $$ f(x) = \max{0, x}. $$

我所說的神經網絡是指由一個或多個“隱藏層”組成的函數逼近機器。

(也就是說,我希望排除被視為神經網絡“特殊情況”的模型,因為如果我們承認這種特殊情況,那麼問題將簡化為“在任何情況下,任何人何時首先提出閾值低於 0 的想法?”這對我來說並不是很有趣。)

我發現的 ReLU 激活的最早用法是 Fukushima (1980, page 196, equation 2)。除非我遺漏了什麼,否則本文中沒有為該函數指定任何特定名稱。我不知道較舊的參考文獻,但由於術語不一致且變化迅速,我很可能錯過了更舊出版物中的關鍵細節。

通常引用 Nair & Hinton (2010) 作為 $ f $ . 例如,Schmidhuber (2014) 在他的評論文章中討論 ReLU 單元時引用了 Nair 和 Hinton。當然,Nair & Hinton 的論文很重要,因為它激發了最近使用 $ f $ 在神經網絡中,它是現代命名法“整流線性單元”的來源。儘管如此,使用的想法 $ f $ 因為激活比 2010 年的論文早了幾十年。

順便說一句,Hinton 還與人合著了Parallel Distributed Processing的一章,其中 $ f $ 用於神經網絡。在本文中, $ f $ 稱為“閾值函數”。然而,這本書是在福島的論文發表六年後的 1986 年出版的。


參考

引用自:https://stats.stackexchange.com/questions/447674

comments powered by Disqus