如何解釋一個樣本 T 檢驗中均值差異的置信區間?
SPSS 提供輸出“差異均值的置信區間”。我在某些地方讀到它的意思是“100 次中有 95 次,我們的樣本平均差異將在這些界限之間”我覺得這不清楚。誰能提出更清晰的措辭來解釋“均值差異的置信區間”?此輸出出現在單樣本 t 檢驗的上下文中。
即使對於受人尊敬的統計學家來說,這也不是一件容易的事。看看Nate Silver最近的一次嘗試:
…如果我讓你告訴我你的通勤時間比平均時間長 10 分鐘的頻率——這需要某種版本的置信區間——你必須考慮一下,…
(來自紐約時報的FiveThirtyEight博客,2010 年 9 月 29 日。)這**不是置信區間。根據您的解釋方式,它可以是容差區間或預測區間。(否則,Silver 先生關於估計概率的出色討論就沒有什麼問題了;這是一本好書。)許多其他網站(尤其是那些以投資為重點的網站)同樣將置信區間與其他類型的區間混淆了。
《紐約時報》已努力澄清其產生和報導的統計結果的含義。許多民意調查下方的細則包括以下內容:
理論上,在 20 個案例中的 19 個案例中,基於此類所有成年人樣本的結果與試圖採訪所有美國成年人所獲得的結果在任一方向上的差異都不超過三個百分點。
(例如,民意調查是如何進行的,2011 年 5 月 2 日。)
也許有點羅嗦,但清晰而準確:這個陳述描述了民意調查結果的*抽樣分佈的可變性。*這接近於置信區間的概念,但並不完全存在。然而,在許多情況下,人們可能會考慮使用這樣的措辭代替置信區間。
當互聯網上存在如此多的潛在混亂時,求助於權威來源很有用。我的最愛之一是 Freedman、Pisani 和 Purves 的歷史悠久的著作《統計》。 現在是第四版,它已在大學中使用了 30 多年,並以其清晰、簡單的解釋和對經典“頻率論”方法的關注而著稱。讓我們看看它對解釋置信區間的看法:
95% 的置信水平說明了抽樣程序……
[在第 384; 所有引文均來自第三版(1998 年)]。它繼續,
如果樣本的結果不同,置信區間就會不同。… 對於大約 95% 的樣本,區間 … 涵蓋總體百分比,而對於其他 5% 則不涵蓋。
[頁。384]。文本更多地說明了置信區間,但這足以提供幫助:它的方法是將討論的焦點轉移到*樣本上,*同時使陳述變得嚴謹和清晰。因此,我們可能會在自己的報告中嘗試同樣的事情。例如,讓我們應用這種方法來描述假設實驗中報告的百分比差異周圍的置信區間 [34%, 40%]:
“這個實驗使用了隨機選擇的受試者樣本和隨機選擇的對照。我們報告了從 34% 到 40% 的差異的置信區間。這量化了實驗的可靠性:如果受試者和對照的選擇不同, 這個置信區間會改變以反映所選受試者和對照的結果。在 95% 的這種情況下,置信區間將包括真正的差異(所有受試者和所有對照之間),而在其他 5% 的情況下,它不會. 因此,這個置信區間很可能——但不確定——包括真正的差異:也就是說,我們認為真正的差異在 34% 和 40% 之間。”
(這是我的文本,肯定可以改進:我邀請編輯來處理它。)
像這樣的長聲明有點笨拙。在實際報告中,大多數上下文——隨機抽樣、受試者和控制、可變性的可能性——已經確定,因此前面的陳述有一半是不必要的。當報告確定存在抽樣變異性並展示了抽樣結果的概率模型時,通常不難像觀眾需要的那樣清楚和嚴格地解釋置信區間(或其他隨機區間)。