Hypothesis-Testing

這是p-hacking嗎?

  • February 3, 2022

我目前正在使用來自玻璃門的數據(通過 kaggle 找到)調查性別薪酬差距。該數據集包含性別、年齡、員工績效評估、資歷、薪酬等列。

背景:在過去的幾年裡,我學習了很多數據科學/機器學習/編程,並且在申請工作之前,我只是在做一些我自己的基本投資組合項目以進行實踐。

我做了一個相當幼稚的t檢驗,比較男性的平均工資和女性的平均工資。我現在希望添加控件,比較相似的年齡組、資歷、教育水平等。我想做更多的 t 檢驗,以及查看卡方分佈和/或 ANOVA。

當我做多個測試 A/B 測試時,我想避免 p-hacking。我有一些假設,例如,我預計老年群體的薪酬差距會更大。但這主要是探索數據,我沒有要為整個研究證明的單一假設,也沒有政治議程。

只要我選擇要進行的比較並報告所有內容,我不確定它是否真的算作 p-hacking。如果我選擇報告哪個 t 檢驗結果來幫助證明假設,我認為這只是 p-hacking。這公平嗎?

還有一個問題(暫時忘記我的數據),使用方差分析,因為它一次比較多個組以尋找意義,這不是 p-hacking 嗎?

如果您正在進行探索性分析,那麼您就不會關心 p 值。您所做的是搜索任何模式。P 值用於驗證假設,但您沒有。

但是,如果在您的探索性分析之後,您將使用相同的數據執行一些假設檢驗,那麼如果假設是由相同的數據創建的,那麼這會給出錯誤的 p 值。

如果您只有一個可用的數據集,那麼您可以將數據分成兩個子集,一個用於分析,另一個用於後續研究,以驗證發現的模式是否與抽樣中的統計變化有很大不同。


您似乎正在通過使用假設檢驗和 p 值來搜索模式。如果您僅將 p 值視為模式識別(搜索異常)的幫助,而不是與實驗相關的報告值以驗證某種效果,那麼這不是 p-hacking。

您必須小心,但不要將含義從模式識別中使用的統計量轉換為表達實驗的統計顯著性以測量效果的值。

引用自:https://stats.stackexchange.com/questions/562954

comments powered by Disqus