為什麼“統計顯著”還不夠？

December 11, 2013

我已經完成了我的數據分析並得到了與我的假設一致的“統計上顯著的結果”。然而，一位統計學專業的學生告訴我，這是一個為時過早的結論。為什麼？我的報告中還需要包含其他內容嗎？

假設檢驗與參數估計

通常，假設以二元方式構建。我會把方向性假設放在一邊，因為它們不會太大改變問題。至少在心理學中，談論以下假設是很常見的：群體均值之間的差異是或不為零；相關性為零或不為零；回歸係數為零或不為零；r 平方是或不為零。在所有這些情況下，都存在無效假設和有效替代假設。

這種二元思維通常不是我們最感興趣的。一旦你考慮你的研究問題，你幾乎總是會發現你實際上對估計參數感興趣。您對組均值之間的實際差異、相關性的大小、回歸係數的大小或解釋的方差量感興趣。

當然，當我們得到一個數據樣本時，一個參數的樣本估計值與總體參數是不一樣的。所以我們需要一種方法來量化我們對參數值可能是什麼的不確定性。從頻率論者的角度來看，置信區間提供了一種方法，儘管貝葉斯純粹主義者可能會爭辯說，他們並不嚴格允許您可能想要做出的推論。從貝葉斯的角度來看，後驗密度的可信區間提供了一種更直接的方法來量化您對總體參數值的不確定性。

參數/效果大小

擺脫二元假設檢驗方法會迫使您以連續的方式思考。例如，組均值的大小差異在理論上會是有趣的嗎？您如何將群體意義之間的差異映射到主觀語言或實際含義上？標準化的效果度量以及上下文規範是構建用於量化不同參數值含義的語言的一種方式。此類測量通常被標記為“效果大小”（例如，Cohen 的 d、r、，等等。）。然而，使用非標準化測量來討論效應的重要性是完全合理的，而且通常更可取（例如，組均值的差異對有意義的非標準化變量，如收入水平、預期壽命等）。

心理學（和其他領域）有大量文獻批評對 p 值、零假設顯著性檢驗等的關注（請參閱此Google Scholar 搜索）。該文獻通常建議以置信區間作為分辨率報告效應量（例如，Wilkinson 的 APA 工作組，1999）。

擺脫二元假設檢驗的步驟

如果您正在考慮採用這種想法，我認為您可以採取越來越複雜的方法：

方法 1a。以原始和標準化術語報告樣本效應的點估計值（例如，組均值差異）。當你報告你的結果時，討論這樣的數量級對理論和實踐意味著什麼。

方法 1b。添加到 1a，至少在一個非常基本的水平上，根據您的樣本量，對您的參數估計的不確定性有所了解。

方法 2。還報告效應大小的置信區間，並將這種不確定性納入您對感興趣參數的合理值的思考。

方法 3. 報告貝葉斯可信區間，並檢查各種假設對該可信區間的影響，例如先驗選擇、模型隱含的數據生成過程等。

在許多可能的參考資料中，您會看到Andrew Gelman在他的博客和他的研究中談論了很多關於這些問題的內容。

參考

尼克森，RS (2000)。零假設顯著性檢驗：對一個古老且持續存在的爭議的回顧。心理學方法，5（2），241。

威爾金森，L. (1999)。心理學期刊中的統計方法：指南和解釋。美國心理學家，54（8），594. PDF

引用自：https://stats.stackexchange.com/questions/79289

comments powered by Disqus

為什麼“統計顯著”還不夠？

假設檢驗與參數估計

參數/效果大小

擺脫二元假設檢驗的步驟

參考

相關問答

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

我可以比較 p 值嗎？

為什麼機器學習中的參數未經測試？

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

具有二分變量的兩組的顯著性檢驗

為什麼均值 ± 2*SEM（95% 置信區間）重疊，但 p 值為 0.05？