Classification

交叉驗證分類準確度的置信區間

  • February 27, 2014

我正在研究計算兩個輸入 X 射線圖像之間的相似性度量的分類問題。如果圖像是同一個人(標籤為“正確”),則將計算更高的度量;兩個不同人的輸入圖像(“錯誤”標籤)將導致較低的度量。

我使用分層 10 折交叉驗證來計算誤分類概率。我當前的樣本量約為 40 個正確匹配項和 80 個錯誤匹配項,其中每個數據點都是計算的指標。我得到的錯誤分類概率為 0.00,但我需要對此進行某種置信區間/錯誤分析。

我正在研究使用二項式比例置信區間(我將使用交叉驗證的結果作為我成功次數的正確標籤或錯誤標籤)。但是,二項式分析背後的假設之一是每次試驗的成功概率相同,我不確定交叉驗證中“正確”或“錯誤”分類背後的方法是否可以認為有相同的成功概率。

我能想到的唯一其他分析是重複交叉驗證 X 次併計算分類錯誤的均值/標準差,但我不確定這是否合適,因為我將重用我的數據相對較小的樣本量數倍。

有什麼想法嗎?我使用 MATLAB 進行所有分析,並且我有統計工具箱。將不勝感激任何和所有的幫助!

不穩定性對不同替代模型預測的影響

但是,二項式分析背後的假設之一是每次試驗的成功概率相同,我不確定交叉驗證中“正確”或“錯誤”分類背後的方法是否可以認為有相同的成功概率。

好吧,通常,等價性是一個假設,也需要允許您匯集不同代理模型的結果。

在實踐中,您認為可能違反此假設的直覺通常是正確的。但是您可以衡量是否是這種情況。這就是我發現迭代交叉驗證很有幫助的地方:不同代理模型對同一案例的預測穩定性讓您可以判斷模型是否等效(穩定預測)。

這是一個迭代(又名重複)的方案-折疊交叉驗證:

迭代 k 折交叉驗證

類是紅色和藍色。右邊的圓圈象徵著預測。在每次迭代中,每個樣本只被預測一次。通常,總平均值用作性能估計,隱含地假設代理模型是平等的。如果您在不同代理模型(即跨列)所做的預測中查找每個樣本,您可以看到該樣本的預測有多穩定。

您還可以計算每次迭代的性能(圖中 3 行的塊)。這些之間的任何差異都意味著不滿足代理模型等價的假設(彼此等價,此外還與建立在所有案例上的“大模型”等價)。但這也告訴你你有多少不穩定性。對於二項式比例,我認為只要真實性能相同(即是否總是錯誤預測相同的情況或是否錯誤預測相同數量但不同的情況)。我不知道是否可以明智地假設代理模型的性能具有特定分佈。但我認為,如果您完全報告這種不穩定性,那麼無論如何它都比目前常見的分類錯誤報告更有優勢。已經為每次迭代匯集了代理模型,不穩定性方差大致為乘以迭代之間觀察到的方差。

我通常需要處理遠遠少於 120 個獨立案例,所以我對我的模型進行了非常強大的正則化。然後我通常能夠證明不穩定性方差是比有限的測試樣本量方差。(而且我認為這對於建模是明智的,因為人類傾向於檢測模式,因此傾向於構建過於復雜的模型,從而過度擬合)。

我通常報告在迭代中觀察到的不穩定性方差的百分位數(和,和) 和有限測試樣本量的平均觀察性能的二項式置信區間。

該圖是圖的較新版本。本文第 5 篇:Beleites, C. 和 Salzer, R.:評估和改進小樣本情況下化學計量模型的穩定性,Anal Bioanal Chem, 390, 1261-1271 (2008)。DOI: 10.1007/s00216-007-1818-6

請注意,當我們寫這篇論文時,我還沒有完全意識到我在這裡解釋的不同的方差來源——請記住這一點。因此我認為論證對於有效的樣本量估計是不正確的,即使每個患者體內不同組織類型貢獻的總體信息與具有給定組織類型的新患者一樣多的應用結論可能仍然有效(我有一個完全不同類型的證據也指出了這一點)。但是,我還不能完全確定這一點(也不知道如何做得更好,從而能夠檢查),而且這個問題與你的問題無關。


二項式置信區間使用哪種性能?

到目前為止,我一直在使用平均觀察到的性能。您還可以使用觀察到的最差性能:觀察到的性能越接近 0.5,方差越大,因此置信區間越大。因此,觀察到的性能最接近 0.5 的置信區間為您提供了一些保守的“安全邊際”。

請注意,如果觀察到的成功次數不是整數,一些計算二項式置信區間的方法也可以使用。我使用

羅斯,TD 中所述的“貝葉斯後驗概率積分”:二項式比例和泊松率估計的準確置信區間,Comput Biol Med, 33, 509-531 (2003)。DOI: 10.1016/S0010-4825(03)00019-2

(我不知道 Matlab,但在 R 中,您可以將binom::binom.bayes兩個形狀參數都設置為 1)。


這些想法適用於基於訓練數據集產量的未知新案例的預測模型。如果您需要生成從相同案例群體中提取的其他訓練數據集,則需要估計在新的訓練樣本上訓練了多少模型各不相同。(除了獲得“物理上”的新訓練數據集外,我不知道該怎麼做)

另請參閱:Bengio, Y. 和 Grandvalet, Y.:K 折交叉驗證方差的無偏估計,機器學習研究雜誌,2004, 5, 1089-1105

(更多地考慮這些事情在我的研究待辦事項清單上……,但由於我來自實驗科學,我喜歡用實驗數據補充理論和模擬結論 - 這在這裡很困難,因為我需要大量一組用於參考測試的獨立案例)


更新:假設生物群分佈是否合理?

我看到 k-fold CV 類似於下面的投擲硬幣實驗:而不是多次投擲*一枚硬幣,*同一台機器生產的硬幣被投擲的次數較少。在這張照片中,我認為@Tal 指出硬幣不一樣。這顯然是真的。我認為應該做什麼和可以做什麼取決於代理模型的等價假設。

如果代理模型(硬幣)之間實際上存在性能差異,則代理模型等效的“傳統”假設不成立。在這種情況下,不僅分佈不是二項式(正如我上面所說,我不知道要使用什麼分佈:它應該是每個代理模型/每個硬幣的二項式之和)。但是請注意,這意味著不允許合併代理模型的結果。所以也不是二項式測試一個好的近似值(我試圖通過說我們有一個額外的變化來源來改進近似值:不穩定性),也不能在沒有進一步證明的情況下將平均性能用作點估計。

另一方面,如果代理的(真實)表現是相同的,那就是我的意思是“模型是等效的”(一個症狀是預測是穩定的)。我認為在這種情況下,所有代理模型的結果都可以合併,並且所有代理模型的結果都可以進行二項式分佈測試應該可以使用:我認為在這種情況下,我們有理由近似真實代理模型的 s 相等,因此將測試描述為等同於投擲一枚硬幣次。

引用自:https://stats.stackexchange.com/questions/88183

comments powered by Disqus