為什麼 ANOVA 不是 p-hacking？

February 3, 2022

假設我們有一些帶有許多參數的數據。舉個例子，假設我是一個在食品網站工作的不太道德的記者，我正在尋找一些“有科學支持”的點擊誘餌文章，講述一些食物或生活方式對你的好處/壞處。

我的數據可能包含數千人的集合，他們的社會經濟地位，早餐吃什麼，是否素食，喜歡茶還是咖啡等，以及他們的智商測試分數。

如果我將數據集分成許多（100+）組，其中第一組可能會劃分素食者/肉食者，第二組可能會劃分咖啡飲用者和茶飲用者，第三組可能會劃分女性咖啡飲用者和男性飲茶者等。如果然後使用 ANOVA比較所有組以查看是否存在統計學上的顯著差異，這不是有效的 p-hacking 嗎？

我知道 ANOVA 不會告訴我們哪些組不同，但它似乎是一種快速確認其中存在（假）陽性的方法。然後是找出哪些組不同的案例。

這不是 p-hacking。比較了多個組，但只測試了一個假設。

ANOVA 計算方差的比率，並且可以基於單個假設計算該比率的 p 值。

可能會出現“anova = p-hacking”的想法，因為假設檢驗通常不用於檢驗零假設，而是為替代假設提供證明/證明（一次可以有多個） .

請注意，ANOVA 具有以下屬性

ANOVA 並不能說明許多組中的哪一個是不同的，而只是它們不一樣。

對於所有類型的組組合，方差分析不如單獨的 t 檢驗強大。

如果我將數據集分成許多（100+）組，其中第一組可能會劃分素食者/肉食者，第二組可能會劃分咖啡飲用者和茶飲用者，第三組可能會劃分女性咖啡飲用者和男性飲茶者等。如果然後使用 ANOVA比較所有組以查看是否存在統計學上的顯著差異，這不是有效的 p-hacking 嗎？

目前尚不清楚您將如何進行這種拆分和方差分析。使用 ANOVA，您可以有多個組，但這些組不應重疊。您可能會使用所有這些變量做一個線性模型之類的事情，但是每個額外的組/變量都會降低自由度並使 ANOVA 測試不那麼敏感/強大。

引用自：https://stats.stackexchange.com/questions/562984

為什麼 ANOVA 不是 p-hacking？

相關問答

這是p-hacking嗎？