Machine-Learning

折刀有當代用途嗎?

  • January 21, 2015

問題: Bootstrapping優於jackknifing;但是,我想知道在某些情況下,jackknifing 是從參數估計中表徵不確定性的唯一或至少是一種可行的選擇。此外,在實際情況下,相對於 bootstrap,jackknifing 的偏差/不准確程度如何,並且在開發更複雜的 bootstrap 之前,jackknife 結果能否提供初步見解?

一些背景: 朋友正在使用黑盒機器學習算法 ( MaxEnt ) 對“僅存在”或“僅肯定”的地理數據進行分類。一般模型評估通常使用交叉驗證和 ROC 曲線來完成。但是,她正在使用模型的輸出來導出模型輸出的單個數字描述,並且想要圍繞該數字的置信區間;Jackknifing 似乎是描述圍繞該值的不確定性的合理方法。自舉似乎不相關,因為每個數據點都是地圖上的唯一位置,無法通過替換重新採樣。建模程序本身可能最終能夠提供她需要的東西;但是,如果/何時折疊刀有用,我對一般情況感興趣。

如果您採用jackknifing 不僅包括留一法,而且包括任何類型的無替換重採樣,例如-fold 程序,我認為它是一個可行的選擇並經常使用它,例如在 Beleites等人中。: 星形細胞瘤組織的拉曼光譜分級:使用軟參考信息。肛門生物肛門化學, 2011, 400, 2801-2816

另請參閱:交叉驗證分類準確性的置信區間


我避免 LOO 有幾個原因,而是使用迭代/重複-折疊方案。在我的領域(化學/光譜學/化學計量學)中,交叉驗證比自舉驗證更常見。對於我們的數據/典型應用程序,我們發現迭代次數-折疊交叉驗證和自舉性能估計的迭代具有非常相似的總誤差[Beleites等人。:使用稀疏數據集估計分類誤差的方差減少。Chem.Intell.Lab.Syst., 2005, 79, 91-100.]

我看到迭代交叉驗證方案優於自舉的特別優勢是,我可以很容易地推導出可以直觀解釋的穩定性/模型不確定性度量,並且它區分了性能測量中方差不確定性的兩個不同原因,這兩個原因在自舉測量。

讓我進行交叉驗證/折斷的一個推理是查看模型的穩健性:交叉驗證直接對應於*“如果我交換我的模型會發生什麼”類型的問題案例新案例?”“我的模型對通過交換擾動訓練數據的能力有多強?案例?”*這也適用於自舉,但不太直接。

請注意,我不會嘗試推導置信區間,因為我的數據本質上是聚集的(的光譜患者),所以我更願意報告

  1. 使用平均觀察到的性能的(保守的)二項式置信區間和作為樣本量和
  2. 我觀察到的方差交叉驗證的迭代。後folds,每個案例只測試一次,儘管使用不同的代理模型。因此,觀察到的任何類型的變化運行必須是由模型不穩定引起的。

通常,即如果模型設置良好,2. 只需要表明它比 1. 中的方差小得多,因此模型是相當穩定的。如果 2. 證明是不可忽略的,那麼是時候考慮聚合模型了:模型聚合僅有助於模型不穩定性引起的方差,它不能減少由於測試用例數量有限而導致的性能測量中的方差不確定性.

請注意,為了構建此類數據的性能置信區間,我至少會考慮在交叉驗證的運行是平均值這種不穩定性的模型,即我會說模型不穩定性方差是交叉驗證運行之間觀察到的差異;加上由於有限案例數引起的方差 - 對於分類(命中/錯誤)性能度量,這是二項式的。對於連續測量,我會嘗試從交叉驗證運行方差中得出方差,,以及不穩定性類型方差的估計模型衍生自

此處交叉驗證的優點是您可以清楚地區分由模型不穩定性引起的不確定性和由有限數量的測試用例引起的不確定性。相應的缺點當然是,如果您忘記考慮有限數量的實際案例,您將嚴重低估真正的不確定性。然而,這也會發生在自舉過程中(儘管程度較輕)。


到目前為止,推理集中在衡量您為給定數據集推導出的模型的性能。如果您考慮給定應用程序和給定樣本大小數據集,則對方差的第三個貢獻從根本上無法通過重採樣驗證來衡量,請參見例如Bengio & Grandvalet: No Unbiased Estimator of the Variance of K-Fold Cross -驗證,機器學習研究雜誌,5, 1089-1105 (2004)。,我們也有數據顯示貝萊特斯等人的這三個貢獻。: 分類模型的樣本量規劃。, Anal Chim Acta, 760, 25-33 (2013)。DOI: 10.1016/j.aca.2012.11.007 )

我認為這裡發生的事情是假設重新採樣類似於繪製一個完整的新樣本分解的結果。

如果要比較模型構建算法/策略/啟發式而不是為應用程序構建特定模型並驗證該模型,這一點很重要。

引用自:https://stats.stackexchange.com/questions/134368

comments powered by Disqus