置信區間對精度有什麼影響(如果有的話)?
Morey 等人 (2015) 認為置信區間具有誤導性,並且存在與理解它們相關的多種偏差。其中,他們將精確謬誤描述如下:
精度謬誤
置信區間的寬度表示我們對參數的了解的精度。窄的置信區間顯示精確的知識,而寬的置信誤差顯示不精確的知識。
估計的精度和置信區間的大小之間沒有必然的聯繫。看到這一點的一種方法是想像兩名研究人員——一名高級研究員和一名博士生——正在分析實驗的參與者。作為對博士生有益的練習,高級研究員決定將參與者隨機分成兩組這樣他們就可以分別分析一半的數據集。在隨後的一次會議上,兩人互相分享了他們的學生均值的置信區間。博士生的CI是, 和高級研究員CI是.
高級研究人員指出,他們的結果大體上是一致的,並且他們可以使用他們各自的兩個點估計的等權重平均值,,作為真實均值的總體估計。
然而,博士生認為他們的兩種方法不應該均勻加權:她注意到她的 CI 是一半寬,並認為她的估計更精確,因此應該更重地加權。她的顧問指出,這不可能是正確的,因為對兩種均值加權不均的估計值與分析完整數據集的估計值不同,後者必須是. 博士生的錯誤是假設 CI 直接表示數據後的精度。
上面的例子似乎具有誤導性。如果我們將一個樣本隨機分成兩半,分成兩個樣本,那麼我們會期望樣本均值和標準誤差都很接近。在這種情況下,使用加權平均值(例如通過逆誤差加權)和使用簡單算術平均值之間應該沒有任何區別。但是,如果估計值不同並且其中一個樣本的誤差明顯更大,這可能表明該樣本存在“問題”。
顯然,在上面的例子中,樣本大小是相同的,因此通過取平均值來“連接”數據與取整個樣本的平均值相同。問題是整個示例遵循定義不明確的邏輯,即先將樣本分成幾部分,然後再重新組合以進行最終估計。
該示例可以重新措辭以得出完全相反的結論:
研究人員和學生決定將他們的數據集分成兩半並獨立分析它們。之後,他們比較了他們的估計,發現他們計算的樣本意味著他們有很大的不同,而且學生估計的標準誤差要大得多。學生擔心這可能表明他的估計精度存在問題,但研究人員暗示置信區間和精度之間沒有聯繫,因此兩個估計值同樣值得信賴,他們可以發布其中任何一個,隨機選擇,作為他們的最終估計。
更正式地說,“標準”置信區間,如學生的, 基於錯誤
在哪裡是一些常數。在這種情況下,它們與精度直接相關,不是嗎..?
所以我的問題是:
精確謬誤真的是謬誤嗎?置信區間對精度有什麼影響?
Morey, R., Hoekstra, R., Rouder, J., Lee, M., & Wagenmakers, E.-J. (2015 年)。對置信區間置信的謬誤。心理公報與評論,1-21。https://learnbayes.org/papers/confidenceIntervalsFallacy/
在論文中,我們實際上以多種方式證明了精確謬誤。你要問的那個——論文中的第一個——這個例子是為了證明一個簡單的“CI = 精度”是錯誤的。這並不是說任何稱職的頻率論者、貝葉斯論者或可能性論者都會對此感到困惑。
這是查看發生了什麼的另一種方法:如果我們只是被告知 CI,我們仍然無法將樣本中的信息組合在一起;我們需要知道 $ N $ ,然後我們可以將 CI 分解為 $ \bar{x} $ 和 $ s^2 $ , 從而正確組合兩個樣本。我們必須這樣做的原因是 CI 中的信息與討厭的參數相比是邊際的。我們必須考慮到兩個樣本都包含有關相同有害參數的信息。這涉及計算兩者 $ s^2 $ 值,將它們結合起來得到一個總體估計 $ \sigma^2 $ ,然後計算一個新的 CI。
至於精確謬誤的其他證明,請參閱
- Welch (1939) 部分(潛艇)中的多個 CI,其中之一包括上面@dsaxton 提到的“瑣碎” CI。在此示例中,最佳 CI 不跟踪可能性的寬度,並且還有其他幾個 CI 示例也不跟踪。
- CI — 即使是“好”的 CI 也可以為空,“錯誤”表示無限精度
這個難題的答案是“精確度”,至少在 CI 倡導者認為的方式(對估計值與參數“接近”程度的後實驗評估)根本不是置信區間通常具有的特徵,他們不是故意的。特定的置信程序可能會……也可能不會。
另請參閱此處的討論:http: //andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591