Neural-Networks
ReLU 函數是什麼時候首次在神經網絡中使用的?
ReLU 函數是什麼時候首次在神經網絡中使用的?
通過 ReLU,我的意思是函數 $$ f(x) = \max{0, x}. $$
我所說的神經網絡是指由一個或多個“隱藏層”組成的函數逼近機器。
(也就是說,我希望排除被視為神經網絡“特殊情況”的模型,因為如果我們承認這種特殊情況,那麼問題將簡化為“在任何情況下,任何人何時首先提出閾值低於 0 的想法?”這對我來說並不是很有趣。)
我發現的 ReLU 激活的最早用法是 Fukushima (1980, page 196, equation 2)。除非我遺漏了什麼,否則本文中沒有為該函數指定任何特定名稱。我不知道較舊的參考文獻,但由於術語不一致且變化迅速,我很可能錯過了更舊出版物中的關鍵細節。
通常引用 Nair & Hinton (2010) 作為 $ f $ . 例如,Schmidhuber (2014) 在他的評論文章中討論 ReLU 單元時引用了 Nair 和 Hinton。當然,Nair & Hinton 的論文很重要,因為它激發了最近使用 $ f $ 在神經網絡中,它是現代命名法“整流線性單元”的來源。儘管如此,使用的想法 $ f $ 因為激活比 2010 年的論文早了幾十年。
順便說一句,Hinton 還與人合著了Parallel Distributed Processing的一章,其中 $ f $ 用於神經網絡。在本文中, $ f $ 稱為“閾值函數”。然而,這本書是在福島的論文發表六年後的 1986 年出版的。
參考
- 於爾根·施米德胡伯。“神經網絡中的深度學習:概述。” 2014 年。
- 福島國彥。“ Neocognitron:一種不受位置偏移影響的模式識別機制的自組織神經網絡模型。” 生物控制論。1980 年。
- DE Rumelhart、GE Hinton 和 JL McClelland。“並行分佈式處理的通用框架”,並行分佈式計算,第 1 卷, 1986 年。
- Vinod Nair、Geoffrey E. Hinton,“整流線性單元改進受限玻爾茲曼機”,2010 年。