Neural-Networks

(理論上)可以用比權重更少的訓練樣本來訓練神經網絡嗎?

  • July 19, 2017

首先:我知道,訓練神經網絡不需要一般的樣本量。這取決於太多的因素,比如任務的複雜性、數據中的噪音等等。我擁有的訓練樣本越多,我的網絡就越好。

但我想知道:如果我假設我的任務足夠“簡單”,那麼理論上是否可以用比權重更少的訓練樣本來訓練神經網絡?有誰知道這個成功的例子嗎?或者這個網絡幾乎肯定會表現不佳?

例如,如果我考慮多項式回歸,我不能僅在 4 個數據點上擬合 4 次多項式(即具有 5 個自由參數)。考慮到我的權重數量作為自由參數的數量,神經網絡是否有類似的規則?

人們一直在使用大型網絡這樣做。例如,著名的 AlexNet 網絡有大約 6000 萬個參數,而最初訓練它的 ImageNet ILSVRC 只有 120 萬個圖像。

您不將 5 參數多項式擬合到 4 個數據點的原因是,它總能找到一個完全適合您的數據點的函數,但在其他地方做無意義的事情。好吧,正如最近指出的那樣,AlexNet 和類似的網絡可以擬合應用於 ImageNet 的任意隨機標籤並簡單地記住它們,大概是因為它們的參數比訓練點多得多。但是網絡的先驗與隨機梯度下降優化過程相結合意味著,在實踐中,當你給它們真正的標籤時,這些模型仍然可以很好地泛化到新的數據點。我們仍然不明白為什麼會發生這種情況。

引用自:https://stats.stackexchange.com/questions/292278

comments powered by Disqus