Cross-Validation

為什麼要使用分層交叉驗證?為什麼這不會損害與差異相關的利益?

  • October 2, 2014

有人告訴我,使用分層交叉驗證是有益的,尤其是在響應類不平衡時。如果交叉驗證的一個目的是幫助解釋我們原始訓練數據樣本的隨機性,那麼除非您確定原始訓練集具有代表性的類分佈,否則使每個折疊具有相同的類分佈肯定會對此產生影響。

我的邏輯有問題嗎?

編輯 我對這種方法是否會損害 CV 的優點感興趣。如果您有一個小樣本/非常不平衡的類/兩者,我可以明白為什麼有必要避免在折疊中沒有一個小類的代表。

交叉驗證研究中的蘋果對蘋果:分類器性能測量中的陷阱很好地提出了分層的案例,但所有論點似乎都相當於“分層提供了保障和更多的一致性”,但只要足夠多,就不需要保障數據。

答案很簡單*:“我們出於必要而使用它,因為我們很少有足夠的數據。”* ?

Bootstrapping 旨在模擬從總體中抽取新樣本的效果,而不是尋求確保不同的測試集(N 次抽樣後的 N 次替換後的殘差)。

RxK-fold 交叉驗證確保 K 個不同的測試折疊,但隨後針對不同的隨機分區重複 R 次,以允許 K-CV 保持獨立性假設,但這會隨著重複而丟失。

分層交叉驗證違反了在計算統計數據之前不應該查看測試標籤的原則,但這通常被認為是無害的,因為唯一的效果是平衡折疊,但它確實會導致多樣性的損失(不必要的方差損失)。它比 Boostrap 的想法更進一步,即構建一個類似於您從整個人群中自然抽取的樣本。可以說,分層很重要的主要原因是解決分類算法中的缺陷,因為它們很容易因類的過度或不足而產生偏差。使用平衡技術(通過選擇或加權)或優化機會正確度量(Kappa 或最好是知情度)的算法受此影響較小,儘管即使這樣的算法也可以

強制每個折疊至少有每個類的 m 個實例,對於一些小的 m,是分層的替代方案,適用於 Bootstrapping 和 CV。它確實有一個平滑偏差,使得折疊往往比預期的更平衡。

重新集成和多樣性:如果將在訓練折疊上學習的分類器用於融合而不僅僅是估計泛化誤差,則與 Bootstrap、強制 Bootstrap 相比,CV、分層 Bootstrap 和分層 CV 的剛性增加會導致多樣性喪失和潛在的彈性並強制投簡歷。

引用自:https://stats.stackexchange.com/questions/117643

comments powered by Disqus