Cross-Validation

了解分層交叉驗證

  • February 7, 2013

在維基百科上讀到

分層 k 折疊交叉驗證中,選擇折疊​​以使平均響應值在所有折疊中大致相等。在二分分類的情況下,這意味著每個折疊包含大致相同比例的兩種類別標籤。

  1. 假設我們使用 CV 來估計預測器或估計器的性能。在這種情況下,平均響應值(MRV) 意味著什麼?只是預測器/估計器的平均值?
  2. 在哪些情況下,在所有折疊中*“實現大致相同的 MRV”*實際上很重要?換句話說,這樣做的後果是什麼?

分層旨在確保每個折疊都代表數據的所有層。通常,這是以有監督的方式進行分類,旨在確保每個類在每個測試折疊中(大約)均等地表示(當然,它們以互補的方式組合以形成訓練折疊)。

這背後的直覺與大多數分類算法的偏見有關。他們傾向於平等地加權每個實例,這意味著過度代表的類獲得了過多的權重(例如優化 F 度量、準確性或錯誤的補充形式)。對於對每個類別進行同等加權的算法(例如優化 Kappa、Informedness 或 ROC AUC)或根據成本矩陣(例如,為每個類別正確加權的值和/或每種方法的成本),分層並不是那麼重要。分類錯誤)。參見,例如 DMW Powers (2014),F-measure 不測量的內容:特徵、缺陷、謬誤和修復。http://arxiv.org/pdf/1503.06410

即使在無偏見或平衡算法中也很重要的一個具體問題是,它們往往無法學習或測試一個根本沒有在折疊中表示的類,甚至在只有一個類的情況下在折疊中表示不允許進行泛化。評估。然而,即使這種考慮也不是普遍的,例如不適用於單類學習,它試圖確定單個類的正常情況,並在交叉驗證的情況下有效地將異常值識別為不同的類是關於確定不生成特定分類器的統計信息。

另一方面,監督分層損害了評估的技術純度,因為測試數據的標籤不應該影響訓練,但分層用於訓練實例的選擇。無監督分層也可能基於僅查看數據屬性而不是真實類別的類似數據。參見,例如 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997),用於準確性估計的交叉驗證的無監督分層。

分層也可以應用於回歸而不是分類,在這種情況下,就像無監督分層一樣,使用相似性而不是同一性,但監督版本使用已知的真實函數值。

更複雜的是稀有類和多標籤分類,其中分類是在多個(獨立)維度上進行的。在這裡,跨所有維度的真實標籤的元組可以被視為類,以進行交叉驗證。但是,並非所有組合都一定會出現,並且某些組合可能很少見。稀有類和稀有組合是一個問題,因為不能在所有測試折疊中表示至少出現一次但少於 K 次(在 K-CV 中)的類/組合。在這種情況下,人們可以考慮一種分層增強的形式(帶替換的抽樣以生成一個全尺寸的訓練折疊,預期有重複次數,預期 36.8% 未選擇進行測試,每個類的一個實例最初選擇而不替換測試折疊) .

多標籤分層的另一種方法是嘗試單獨分層或引導每個類維度,而不尋求確保組合的代表性選擇。對於標籤 l 有 L 個標籤和 N 個實例和 Kkl 個類 k 實例,我們可以從相應的標記實例 Dkl 集合中隨機選擇(無需替換)大約 N/LKkl 個實例。這並不能確保最佳平衡,而是試探性地尋求平衡。除非別無選擇(因為某些組合不會發生或很少見),否則可以通過禁止選擇配額或超出配額的標籤來改善這一點。問題往往意味著要么數據太少,要么維度不獨立。

引用自:https://stats.stackexchange.com/questions/49540

comments powered by Disqus