Conv-Neural-Network
卷積神經網絡中使用的 dropout 的直覺是什麼?
有人可以給出卷積神經網絡中使用的 drop-out 方法背後的直覺嗎?
輟學到底在做什麼?
正如介紹它的論文中所述,dropout 是這樣進行的:
- 在訓練期間,從網絡中隨機刪除單元。像往常一樣更新參數,使丟失的單元保持不變。
唯一的區別是,對於 mini-batch 中的每個訓練案例,我們通過丟棄單元對細化網絡進行採樣。該訓練案例的前向和反向傳播僅在此細化網絡上完成。[…] 任何不使用參數的訓練案例都會為該參數貢獻一個零梯度。
- 在測試時,通過重新調整來解決這個問題:
如果一個單位被保留的概率 $ p $ 在訓練期間,該單元的輸出權重乘以 $ p $ 在測試時,如圖 2 所示。這確保對於任何隱藏單元,預期輸出(在用於在訓練時丟棄單元的分佈下)與測試時的實際輸出相同。
直覺是我們希望找到貝葉斯最優分類器,但是對於大型模型這樣做是令人望而卻步的;根據論文,使用通過 dropout 訓練的完整網絡是一種簡單的近似,在實踐中證明是有用的。(有關各種應用程序的結果,請參見論文。一個應用程序包括卷積架構。)