Hypothesis-Testing

效果大小真的優於 p 值嗎?

  • August 17, 2017

在應用研究中,很多重點都放在依賴和報告效應大小而不是p 值上(例如下面的進一步引用)。

但是,像p 值這樣的**效應大小不是一個隨機變量,因此當重複相同的實驗時,它會因樣本而異嗎?換句話說,我在問什麼統計特徵(例如,樣本之間的效應大小比 p 值的變化更小)使效應大小比 p 值更好地衡量證據?

然而,我應該提到一個重要的事實,它將 p 值與效應大小分開。也就是說,效應大小是要估計的,因為它有一個總體參數,但p 值不需要估計,因為它沒有任何總體參數。

對我來說,效應量只是一個指標,在某些研究領域(例如,人類研究)有助於將來自各種研究人員開發的測量工具的經驗發現轉化為一個通用指標(公平地說,使用這個指標人類研究可以更好地適應量化研究俱樂部)。

也許如果我們將一個簡單的比例作為效應大小,以下(在 R 中)是什麼顯示了效應大小對 p 值的至高無上?(p 值變化,但效應大小不變)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

請注意,大多數效應大小與檢驗統計量線性相關。因此,使用效應大小進行零假設檢驗是一個簡單的步驟。

例如,前期後期設計產生的 t 統計量可以很容易地轉換為相應的 Cohen’s d 效應大小。因此,Cohen’s d 的分佈只是分佈的比例位置版本。

報價單:

因為 p 值是混雜指數,理論上 100 項具有不同樣本量和 100 種不同效應量的研究可能各自具有相同的單一 p 值,而具有相同單一效應量的 100 項研究各自可能具有 100 個不同的 p 值值.

或者

p 值是一個隨機變量,因樣本而異。. . . 因此,比較兩個不同實驗或同一實驗中測量的兩個變量的測試的 p 值並聲明一個比另一個更顯著是不合適的?

引文:

湯普森,B.(2006 年)。行為統計的基礎:基於洞察力的方法。紐約,紐約:吉爾福德出版社。

好,PI 和 Hardin,JW(2003 年)。統計中的常見錯誤(以及如何避免它們)。紐約:威利。

提供效應大小而不是 P 值的建議是基於錯誤的二分法並且是愚蠢的。為什麼不同時展示兩者?

科學結論應基於對現有證據和理論的合理評估。P 值和觀察到的效應大小單獨或一起是不夠的。

您提供的引用的段落都沒有幫助。當然 P 值因實驗而異,數據中證據的強度因實驗而異。P值只是通過統計模型對該證據的數字提取。鑑於 P 值的性質,將一個 P 值與另一個 P 值進行比較很少與分析目的相關,所以這可能是引文作者試圖傳達的內容。

如果您發現自己想要比較 P 值,那麼您可能應該對不同的數據排列進行顯著性檢驗,以便明智地回答感興趣的問題。請參閱以下問題: p 值的 p 值?如果一組的平均值不為零,而 另一組的平均值不為零,我們可以得出結論,這些組是不同的嗎?

所以,你的問題的答案很複雜。我沒有發現基於 P 值或效應大小對數據的二分法反應有用,那麼效應大小是否優於 P 值?是的,不,有時,也許,這取決於你的目的。

引用自:https://stats.stackexchange.com/questions/298485

comments powered by Disqus