Machine-Learning
在深度神經網絡中,ReLU 相對於 sigmoid 函數有哪些優勢?
非線性的最新技術是在深度神經網絡中使用整流線性單元(ReLU)而不是 sigmoid 函數。有什麼優勢?
我知道使用 ReLU 訓練網絡會更快,而且更俱生物啟發性,還有什麼其他優勢?(也就是說,使用 sigmoid 有什麼缺點)?
ReLU 的另外兩個主要好處是稀疏性和減少梯度消失的可能性。但首先回想一下 ReLU 的定義是在哪裡.
一個主要的好處是梯度消失的可能性降低。出現這種情況時. 在這種情況下,梯度具有恆定值。相反,隨著 x 絕對值的增加,sigmoid 的梯度變得越來越小。ReLU 的恆定梯度導致更快的學習。
ReLU 的另一個好處是稀疏性。稀疏性出現在. 層中存在的此類單元越多,生成的表示就越稀疏。另一方面,Sigmoid 總是可能生成一些非零值,從而導緻密集表示。稀疏表示似乎比密集表示更有益。