相互比較 p 值有什麼意義？

January 20, 2012

我有兩個人口（男性和女性），每個包含樣品。對於每個樣本，我有兩個屬性 A 和 B（第一年平均成績和 SAT 分數）。我對 A 和 B 分別使用了 t 檢驗：兩者都發現兩組之間存在顯著差異；一個與和 B 與.

是否可以聲稱屬性 B 比屬性 A 更受歧視（更重要）？還是說 t 檢驗只是一個是或否（顯著或不顯著）度量？

更新：根據這裡的評論和我在維基百科上讀到的內容，我認為答案應該是：丟棄無意義的 p 值並報告你的效果大小。有什麼想法嗎？

很多人會爭辯說，-值可以是重要的（) 與否，因此比較兩者是沒有意義的-彼此之間的值。這是錯誤的；在某些情況下確實如此。

在您的特定情況下，您可以直接比較-價值觀。如果樣本量是固定的（），然後-值單調相關-值，這些值又與 Cohen 測量的效應大小單調相關. 具體來說，. 這意味著您的-值與效果大小一一對應，因此您可以確定，如果- 屬性 A 的值大於屬性 B，則 A 的影響大小小於屬性 B。

我相信這回答了你的問題。

幾點補充：

僅考慮到樣本量，這才是正確的是固定的。如果你得到對於具有一種樣本大小的實驗中的屬性 A，以及對於另一個樣本量不同的實驗中的屬性 B，比較它們更加困難。

如果問題具體是 A 或 B 在人群中是否更好地“區分”（即：通過查看 A 或 B 值，您能在多大程度上預測性別？），那麼您應該查看效應大小。在簡單的情況下，知道和足以計算效果大小。

如果問題更模糊：什麼實驗提供了更多反對無效的“證據”？（如果例如 A=B，這可能是有意義的）——那麼問題就會變得複雜和有爭議，但我想說的是-value 根據定義是針對 null 的證據的標量匯總，因此越低-值，證據越強，即使樣本量不同。

說 B 的效應量大於 A 的效應量，並不意味著它明顯更大。您需要在 A 和 B 之間進行一些直接比較才能做出這樣的聲明。

報告（和解釋）效果大小和置信區間總是一個好主意，除了-價值觀。

引用自：https://stats.stackexchange.com/questions/21419

相互比較 p 值有什麼意義？

相關問答

這是p-hacking嗎？

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

我可以比較 p 值嗎？

t.test 和 prop.test 的 p 值差異很大

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

具有二分變量的兩組的顯著性檢驗