Confidence-Interval

對置信區間感到困惑

  • September 8, 2012

我對置信區間的概念感到困惑。具體來說,假設有一個高斯變量和已知,我對下限感興趣的平均值置信水平。

我會做這個實驗次,並觀察,,,,.

**選項 1:**我分別處理每個樣本,我可以計算對於每個. 然後我想有一些方法(我不知道如何)從這 5 個計算實際的下限的。

**選項 2:**另一方面,如果我採取, 我可以計算. (假設是正常的,我們也可以使用t-stat。)

除了選項 2 之外,還有其他方法可以根據樣品?對於選項 1,有沒有辦法根據計算的 5 個下限來計算下限?

這是一個很好的問題,因為它探索了替代程序的可能性,並要求我們思考為什麼以及如何一種程序可能優於另一種程序。

簡短的回答是,有無數種方法我們可以設計一個程序來獲得平均值的置信下限,但其中一些更好,一些更差(在某種意義上是有意義的和明確定義的)。選項 2 是一個出色的程序,因為使用它的人需要收集的數據量少於使用選項 1 的人的一半,才能獲得質量相當的結果。一半的數據通常意味著一半的預算和一半的時間,所以我們談論的是實質性和經濟上重要的差異。 這為統計理論的價值提供了一個具體的證明。


與其重新討論存在許多優秀教科書的理論,不如讓我們快速探索三個置信下限 (LCL) 程序已知標準偏差的獨立正態變量。我選擇了問題建議的三個自然和有希望的。它們中的每一個都由所需的置信水平確定:

  • 選項 1a,“最小”程序。置信下限設置為等於. 數字的價值被確定為這樣的機會將超過真實平均值只是; 那是,.
  • 選項 1b,“最大”程序。置信下限設置為等於. 數字的價值被確定為這樣的機會將超過真實平均值只是; 那是,.
  • 選項 2,“平均”程序。置信下限設置為等於. 數字的價值被確定為這樣的機會將超過真實平均值只是; 那是,.

眾所周知,在哪裡;是標準正態分佈的累積概率函數。這是問題中引用的公式。數學簡寫是

最小最大過程的公式鮮為人知,但很容易確定:

  • .
  • .

通過模擬,我們可以看到所有三個公式都有效。以下R代碼分別進行實驗n.trials並報告每個試驗的所有三個 LCL:

simulate <- function(n.trials=100, alpha=.05, n=5) {
 z.min <- qnorm(1-alpha^(1/n))
 z.mean <- qnorm(1-alpha) / sqrt(n)
 z.max <- qnorm((1-alpha)^(1/n))
 f <- function() {
   x <- rnorm(n); 
   c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
 }    
 replicate(n.trials, f())
}

(代碼不需要處理一般的正態分佈:因為我們可以自由選擇測量單位和測量尺度的零點,所以研究案例就足夠了,. 這就是為什麼沒有一個公式適用於各種實際上取決於.)

10,000 次試驗將提供足夠的準確性。讓我們運行模擬併計算每個過程未能產生低於真實平均值的置信限的頻率:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

輸出是

  max    min   mean 
0.0515 0.0527 0.0520

這些頻率足夠接近規定的值我們可以滿意所有三個程序都像宣傳的那樣工作:它們中的每一個都會產生 95% 置信度的均值置信下限。

(如果您擔心這些頻率與,您可以運行更多試驗。經過一百萬次試驗,他們更接近於:.)

然而,我們希望任何 LCL 程序的一件事是,它不僅應該在預期的時間比例上是正確的,而且應該趨於接近正確。 例如,想像一個(假設的)統計學家,憑藉深厚的宗教敏感性,可以諮詢(阿波羅的)德爾斐神諭,而不是收集數據並進行 LCL 計算。當她向上帝要 95% 的 LCL 時,上帝會猜出真正的意思並告訴她——畢竟,他是完美的。但是,因為上帝不希望與人類完全分享他的能力(這必須保持錯誤),所以 5% 的時間他會給出一個 LCL,即太高。這個 Delphic 程序也是 95% 的 LCL——但在實踐中使用它會很嚇人,因為它有可能產生真正可怕的界限。

我們可以評估我們的三個 LCL 程序的準確性。 一個好方法是查看它們的採樣分佈:同樣,許多模擬值的直方圖也可以。他們來了。首先,生成它們的代碼:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
 hist(sim[s,], breaks=breaks, col="#70C0E0", 
      main=paste("Histogram of", s, "procedure"), 
      yaxt="n", ylab="", xlab="LCL");
 hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

直方圖

它們顯示在相同的 x 軸上(但垂直軸略有不同)。我們感興趣的是

  1. 右側的紅色部分- 其區域代表程序未能低估平均值的頻率 - 幾乎等於所需數量,. (我們已經在數字上證實了這一點。)
  2. 模擬結果的分佈。顯然,最右邊的直方圖比其他兩個更窄:它描述了一個確實低估了平均值的過程(等於) 完全% 的時間,但即使確實如此,這種低估幾乎總是在的真正意思。其他兩個直方圖傾向於將真實平均值低估一點,大約太低。此外,當他們高估真實均值時,他們往往會高估它超過最正確的程序。這些品質使它們不如最右邊的直方圖。

最右邊的直方圖描述了選項 2,即傳統的 LCL 程序。

這些價差的一種衡量標準是模擬結果的標準偏差:

> apply(sim, 1, sd)
    max      min     mean 
0.673834 0.677219 0.453829

這些數字告訴我們最大最小程序具有相等的傳播(大約) 和通常的平均程序只有大約三分之二的傳播(大約)。這證實了我們眼睛的證據。

標準差的平方是方差,等於,, 和, 分別。 差異可能與數據量有關:如果一位分析師推薦最大(或最小)程序,那麼為了實現通常程序所展示的窄價差,他們的客戶必須獲得數據量的兩倍——超過兩倍。換句話說,使用選項 1,您為信息支付的費用將是使用選項 2 的兩倍多。

引用自:https://stats.stackexchange.com/questions/35927

comments powered by Disqus

相關問答