Cross-Validation

在隨機森林回歸中設置種子以產生最高精度是否“公平”?

  • April 19, 2018

我有一個使用 skl 構建的隨機森林回歸,我注意到根據將隨機種子設置為不同的值,我會產生不同的結果。

如果我使用 LOOCV 來確定哪種種子效果最好,這是一種有效的方法嗎?

答案是否定的。

您的模型為您使用的每個種子提供不同的結果。這是模型不確定性的結果。通過選擇最大化驗證集性能的特定種子意味著您選擇了最適合該集的“排列”。但是,這並不能保證具有此種子的模型在單獨的測試集上會表現得更好。這僅僅意味著您在驗證集上過度擬合了模型

這種影響是你看到許多在公共測試集上排名靠前的人(例如 kaggle)的原因,而在隱藏測試集上卻遠遠落後。這種方法無論如何都不是正確的方法。


編輯(與答案沒有直接關係,但我覺得很有趣)

您可以在此處找到一項有趣的研究,顯示隨機種子對計算機視覺的影響。作者首先證明,當使用比其他更好的種子時,您可以獲得更好的結果,並批評許多假定的 SOTA 解決方案可能只是比其他解決方案更好的種子選擇。這是在與作弊相同的上下文中描述的,公平地說,它有點…… 更好的種子選擇不會使你的模型本質上更好,它只會讓它在特定的測試集上看起來更好

引用自:https://stats.stackexchange.com/questions/341610

comments powered by Disqus