為什麼神經網絡需要激活函數？[複製]

June 24, 2015

為什麼神經網絡需要激活函數？我知道這是為了捕捉“非線性”，但我一直無法找到一個合適的腳踏實地的解釋。特別是，我對 ReLU 函數很好奇，因為它非常有效，但看起來很簡單。這如何捕捉非線性？

通常，非線性用於通過函數靈活地壓縮輸入並為恢復更高級別的抽象結構鋪平道路，但請允許我變得更具體。

我發現的關於 ReLU 激活的信息量最大的插圖之一如下：

圖片來自A. Punjani 和 P. Abbeel的作品，描繪了一個帶有 ReLU 激活單元的簡單神經網絡。現在想像你有一個 2D 輸入空間，可以看到 ReLU 單元，實際上對輸入空間進行分區並回歸到您想要的結果，其中空間分區是非線性操作。這就是它如此強大的原因，因為它允許組合不同的輸入轉換，這些轉換是從數據集本身學習的。

更具體地說，作者的描述是：

ReLU 網絡模型的靈活性的圖形表示。每個隱藏單元都可以被認為是在如圖所示的 2D 輸入空間中定義一個超平面（線）。數據點（灰色）每個都落在輸入空間的某個位置，每個都有一個我們希望回歸的值（未圖示）。考慮隱藏單元，以紫色繪製。紫色箭頭指向權重向量的方向

，並且長度根據 . 這條線一側的點不會激活單位，而另一側的點（陰影）導致正輸出。這有效地劃分了輸入空間，並且通過考慮許多隱藏單元（藍色）生成的分區將空間劃分為多個區域。這些區域使模型可以靈活地捕獲輸入數據中的結構。在 ReLU 網絡模型中，分區是從數據中學習的。

引用自：https://stats.stackexchange.com/questions/158549

comments powered by Disqus

為什麼神經網絡需要激活函數？[複製]

相關問答

損失函數的二階近似（深度學習書籍，7.33）

能罪(𝑥)罪⁡(X)sin(x)在深度學習中用作激活？

MNIST 數字識別：僅使用完全連接的 NN，我們能獲得的最佳效果是什麼？（沒有CNN）

高斯 VAE 的優化是否合適？

有沒有功能eX/(1+eX)eX/(1+eX)e^x/(1+e^x)有標準的名字嗎？

為什麼我的 LSTM 需要這麼長時間來訓練？