Neural-Networks
將“外部”數據集添加到訓練數據集中通常有幫助嗎?[關閉]
有幾個人已經問過“更多數據有幫助嗎?”:
我想問“更多的外部數據有幫助嗎”?外部是指來自相似但不相等域的數據。例如,如果我們想檢測日本的汽車,我會將美國數據集視為外部數據集,因為那裡的普通汽車(和街道)看起來不同。或者使用相同類型的對象但使用不同的相機拍攝的數據集。
我問的原因是,許多論文似乎使用外部數據集取得了巨大成功。例如,深度估計方法在 CityScape 數據集上進行額外訓練,以對 KITTI 數據集執行預測,請參閱論文。同樣,外部數據集也經常用於kaggle 比賽。最後,一篇 2014 年的論文報告了“令人驚訝的效果”,即對 ImageNet 類的前半部分進行預訓練,然後對另一半類進行微調,比僅對後半部分類進行訓練產生更好的結果。另一方面,本文在圖 2 中報告說,添加新數據集會使錯誤惡化。因此,你的經驗是什麼?是否有任何指南或有趣的評論文章?還是您只需要總是“嘗試一下”?
編輯:為了澄清,“更多數據”是指更多行(而不是更多列/功能)。更具體地說,我假設存在更多數據對應更多圖像的計算機視覺問題。
我認為您帶來的示例主要來自計算機視覺/圖像識別,並且在這種情況下,外部數據集很可能包含與現有數據類似的信號/動態。“汽車”是與周圍環境無關的“汽車”。盧森堡的“好顧客”或“異常購物活動”與摩爾多瓦不同。除非我們積極考慮“協變量偏移”(輸入分佈變化)和/或“概念漂移””(即給定輸入的正確輸出隨時間/空間/等而變化)然後“更多數據有幫助”只有在我們幸運的情況下。我們應該注意這也包括計算機視覺;例如,如果我們的附加數據有偏差在某種程度上我們不知道和/或無法控制(例如照片總是在夜間或過度曝光),這不一定有助於我們模型的普遍性。