Neural-Networks

對於更深的神經網絡架構，最優超參數仍然是最優的嗎？

December 4, 2019

我使用交叉驗證和貝葉斯優化找到了一組最佳超參數（例如梯度下降的學習率）。在搜索最佳超參數時，我的神經網絡架構保持不變（相同的層數、相同的節點數等）。

我選擇了具有 2 個隱藏層的相對較小的架構，以便模型能夠更快地訓練和評估。

現在我已經找到了最優的超參數，我想知道如果我增加隱藏層和每層節點的數量，超參數仍然是最優的嗎？其他一切都將保持不變（相同的訓練數據和驗證數據）。

現在讓網絡更深更寬的原因是，這將作為最終模型，我將允許訓練更多的 epoch 以獲得盡可能高的準確度；我不介意現在訓練 1 個模型是否需要幾天時間，而在優化超參數時，我需要在幾個小時內訓練一個模型。

不幸的是，它不是那樣工作的。超參數以難以預測的方式協作。例如，說明這一點有點極端。

您沒有隱藏層，換句話說，您正在擬合邏輯回歸。邏輯回歸通常不會真正過擬合。因此，您使用了相對較大的學習率和大量的 epoch，並發現效果很好，至少不會比其他超參數配置差。然後增加層數。你得到一個複雜的模型，現在突然容易過度擬合。然後大的學習率和之前運行良好的許多 epoch 不再是最優的。

小事，我會說隱藏節點的數量，或者更一般地說，神經網絡的整個架構，也是超參數的一部分。所以我讀到的問題更像是，如果我增加網絡的複雜性，相同的學習率是否會是最佳的。

引用自：https://stats.stackexchange.com/questions/439274

相關問答

決策規則作為 LASSO 中的超參數

December 13, 2019

在線性回歸中，為什麼正則化也會懲罰參數值？

May 4, 2019

Neural-Networks

如果我在調整超參數時評估驗證數據的模型性能，為什麼會洩露有關驗證數據的信息？

December 27, 2018

Machine-Learning

為什麼我們不直接學習超參數？

September 7, 2018

我們是否必須調整隨機森林中的樹木數量？

May 25, 2018

Machine-Learning

了解神經網絡中的早期停止及其在使用交叉驗證時的影響

September 28, 2017