Cross-Validation

與 k-fold CV 相比,保留驗證是否更接近“獲取新數據”?

  • July 17, 2014

我一直在重新考慮幾週前我對一個問題的回答

保留交叉驗證產生一個可以重複用於演示的測試集。我們似乎都同意這在很多方面是一個負面特徵,因為一個被保留的集合可能會因為隨機性而變得不具代表性。此外,您最終可能會過度擬合測試數據,就像過度擬合訓練數據一樣。

但是,在我看來,保留樣本的靜態性質比 k 折 CV 更接近“獲取更多數據”,並且避免了跨折平均的問題。然而,我無法為我的這種感覺提供任何統計依據。我的直覺有什麼邏輯嗎?

例如,我對即將到來的項目的想法是首先使用保留驗證來構建和測試模型,然後作為驗證步驟,多次重新繪製保留集以顯示我對預測誤差的估計(在測試集上)對測試集中的抽樣誤差具有魯棒性。出於某種原因,這是一個壞主意嗎?以前有人問過這個問題,但從未得到答案。

恕我直言,保留驗證最糟糕的屬性之一是心理而非統計:我看到很多保留被解釋為好像它是一個獨立的驗證實驗(獨立性已經在實驗級別),儘管許多我在重採樣驗證中看到的關鍵問題也可以並且將與保留相同(任何由不正確拆分引起的問題)發生。

除此之外,恕我直言,它與重新採樣幾乎相同(至少正如我在實踐中看到的那樣)。差異是

  • 實際不同的測試用例的總數較低(因此估計不太確定)。
  • 有了hold-out,性能是針對實際測試的模型,而不是根據hold-out訓練和hold-out測試數據構建的實際未經測試的模型。Resampling 聲稱測量的性能很好地近似於後一種模型的性能。但我也看到了以這種方式使用的保留方法(“設置驗證”)。

Esbensen 和 Geladi:正確驗證的原則:使用和濫用重新採樣進行驗證,化學計量學雜誌,24 (3-4), 168-187實驗)允許測量真正有趣的性能特徵。

您最終可能會過度擬合測試數據,就像過度擬合訓練數據一樣。

與任何其他驗證相同:如果您進行數據驅動的建模/模型選擇,則需要另一個獨立級別的驗證。我在這裡看不出保留方案和重採樣方案有什麼區別。

首先使用保留驗證來構建和測試模型,然後作為驗證步驟,多次重新繪製保留集以表明我對預測誤差的估計(在測試集上)對測試中的抽樣誤差是穩健的放。出於某種原因,這是一個壞主意嗎?

我認為是的,是的:恕我直言,應該使用嵌套設置

(除非您想建議也可以並且應該重複保留驗證 - 這是一種有效的方法,它與僅通過解釋的迭代/重複集驗證不同:性能陳述是關於許多實際測試的模型,還是外推到由所有數據構建的一個模型)。

引用自:https://stats.stackexchange.com/questions/108345

comments powered by Disqus

相關問答