Machine-Learning

僅對訓練集進行數據增強?

  • December 29, 2017

將數據增強僅應用於訓練集或同時應用於訓練集和測試集是常見的做法嗎?

就擴充的概念而言,即由於某種原因使數據集更大,我們傾向於只擴充訓練集。我們將在驗證集上評估不同增強方法的結果。

然而,正如@Łukasz Grad 指出的那樣,我們可能需要對測試集執行與訓練集類似的過程。這通常是為了使來自測試集的輸入數據盡可能地類似於訓練集的輸入數據。例如,@Łukasz Grad 指出了圖像裁剪的示例,我們也需要裁剪測試圖像,因此它們與訓練圖像的大小相同。但是,在訓練圖像的情況下,我們可能會多次使用每個訓練圖像,並在不同的位置/偏移處進行裁剪。在測試時,我們可能會做一個單一的居中裁剪,或者隨機裁剪並取一個平均值。

對測試數據運行增強過程並不是為了使測試數據更大/更準確,而只是為了使測試集的輸入數據類似於訓練集的輸入數據,因此我們可以將其輸入同一個網絡(例如相同的尺寸)。通過應用增強程序,我們永遠不會認為測試集在某種程度上“更好”。至少,這不是我見過的。

另一方面,對於訓練集,增強的目的是減少訓練過程中的過擬合。然後我們通過針對我們或多或少固定的測試/驗證集運行訓練模型來評估增強的質量。

引用自:https://stats.stackexchange.com/questions/320800

comments powered by Disqus