將“外部”數據集添加到訓練數據集中通常有幫助嗎？[關閉]

June 29, 2020

有幾個人已經問過“更多數據有幫助嗎？”：

增加訓練數據對整體系統準確性有什麼影響？

增加訓練數據量會使過擬合變得更糟嗎？

模型在訓練數據集上的得分是否總是高於測試數據集？

我想問“更多的外部數據有幫助嗎”？外部是指來自相似但不相等域的數據。例如，如果我們想檢測日本的汽車，我會將美國數據集視為外部數據集，因為那裡的普通汽車（和街道）看起來不同。或者使用相同類型的對象但使用不同的相機拍攝的數據集。

我問的原因是，許多論文似乎使用外部數據集取得了巨大成功。例如，深度估計方法在 CityScape 數據集上進行額外訓練，以對 KITTI 數據集執行預測，請參閱論文。同樣，外部數據集也經常用於kaggle 比賽。最後，一篇 2014 年的論文報告了“令人驚訝的效果”，即對 ImageNet 類的前半部分進行預訓練，然後對另一半類進行微調，比僅對後半部分類進行訓練產生更好的結果。另一方面，本文在圖 2 中報告說，添加新數據集會使錯誤惡化。因此，你的經驗是什麼？是否有任何指南或有趣的評論文章？還是您只需要總是“嘗試一下”？

編輯：為了澄清，“更多數據”是指更多行（而不是更多列/功能）。更具體地說，我假設存在更多數據對應更多圖像的計算機視覺問題。

我認為您帶來的示例主要來自計算機視覺/圖像識別，並且在這種情況下，外部數據集很可能包含與現有數據類似的信號/動態。“汽車”是與周圍環境無關的“汽車”。盧森堡的“好顧客”或“異常購物活動”與摩爾多瓦不同。除非我們積極考慮“協變量偏移”（輸入分佈變化）和/或“概念漂移””（即給定輸入的正確輸出隨時間/空間/等而變化）然後“更多數據有幫助”只有在我們幸運的情況下。我們應該注意這也包括計算機視覺；例如，如果我們的附加數據有偏差在某種程度上我們不知道和/或無法控制（例如照片總是在夜間或過度曝光），這不一定有助於我們模型的普遍性。

引用自：https://stats.stackexchange.com/questions/474621

comments powered by Disqus

將“外部”數據集添加到訓練數據集中通常有幫助嗎？[關閉]

相關問答

我已經在回歸中使用了我的整個數據集，我不應該將其用作預測模型嗎？

我可以（合理地）僅根據先前模型預測不佳的觀察結果訓練第二個模型嗎？

實際上，獨立同分佈假設是否適用於絕大多數監督學習任務？

為什麼 Permuted MNIST 適合評估持續學習模型？

如果我的線性回歸數據包含幾個混合的線性關係怎麼辦？

數據可視化後進行統計檢驗——數據挖掘？