為什麼我們應該使用 t 錯誤而不是正常錯誤？

October 20, 2014

在Andrew Gelman 的這篇博文中，有以下段落：

50 年前的貝葉斯模型看起來非常簡單（當然，對於簡單的問題除外），我預計今天的貝葉斯模型在 50 年後也會看起來非常簡單。（僅舉一個簡單的例子：我們可能應該經常使用 t 而不是幾乎所有地方的正常錯誤，但出於熟悉、習慣和數學便利，我們還沒有這樣做。這些可能是很好的理由——在科學中在政治上，保守主義有許多有利於它的論據——但我認為，最終當我們對更複雜的模型感到滿意時，我們將朝著這個方向前進。）

為什麼我們應該“經常使用 t 而不是幾乎無處不在的正常錯誤”？

因為，假設正常錯誤實際上與假設不發生大錯誤相同！正態分佈的尾巴很輕，以至於外面的錯誤標準差的概率非常低，誤差超出標準偏差實際上是不可能的。在實踐中，這種假設很少是正確的。從精心設計的實驗中分析小型、整潔的數據集時，如果我們對殘差進行了良好的分析，這可能並不重要。對於質量較差的數據，它可能更重要。

當使用基於可能性（或貝葉斯）的方法時，這種正態性的影響（如上所述，實際上這是“沒有大錯誤” - 假設！）是使推理變得非常不穩健。分析結果受大誤差影響太大！必須如此，因為假設“沒有大錯誤”會迫使我們的方法將大錯誤解釋為小錯誤，而這只能通過移動平均值參數以使所有錯誤更小來實現。 避免這種情況的一種方法是使用所謂的“穩健方法”，請參閱 http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

但 Andrew Gelman 不會這樣做，因為穩健的方法通常以高度非貝葉斯的方式呈現。在似然/貝葉斯模型中使用 t 分佈誤差是獲得穩健方法的另一種方法，因為-分佈的尾部比正常分佈更重，因此允許更大比例的大錯誤。自由度參數的個數應該預先固定，而不是從數據中估計，因為這樣估計會破壞方法的魯棒性（*）（這也是一個非常困難的問題，似然函數為，數量自由度，可以是無界的，導致非常低效（甚至不一致）的估計）。

例如，如果您認為（害怕）多達十分之一的觀察結果可能是“大錯誤”（高於 3 sd），那麼您可以使用- 具有 2 個自由度的分佈，如果認為大誤差的比例較小，則增加該數量。

我應該注意，我上面所說的是針對具有獨立-分佈式錯誤。也有人提出了多元-分佈（不是獨立的）作為誤差分佈。這一提議在《皇帝的新衣：對多元變量的批判》一文中受到嚴厲批評。回歸模型”，由 TS Breusch、JC Robertson 和 AH Welsh 在 Statistica Neerlandica (1997) 第 51 卷，第 3 期，第 269-286 頁中，他們表明多元誤差分佈在經驗上與正態分佈沒有區別。但這種批評並不影響獨立模型。

(*) 說明這一點的一個參考文獻是 Venables & Ripley 的 MASS—Modern Applied Statistics with S（第 4 版第 110 頁）。

引用自：https://stats.stackexchange.com/questions/120776

為什麼我們應該使用 t 錯誤而不是正常錯誤？

相關問答

對於所有類型的分佈，均值的 CDF 是否始終為 0.5？

在貝葉斯模型中，您可以使用 Uniform(-inf, inf) 作為先驗嗎？

的分佈X4(X1−X3)+X5(X2−X1)X4(X1−X3)+X5(X2−X1)x_4(x_1-x_3)+x_5(x_2-x_1)獨立同居X一世∼N(0,1)X一世∼ñ(0,1)x_i sim N(0,1)

統計測試“穩健”意味著什麼？

高維柯西分佈是什麼樣的？

為什麼指數族在統計學中如此重要？