Hypothesis-Testing

數據可視化後進行統計檢驗——數據挖掘?

  • June 30, 2018

我將通過一個例子提出這個問題。

假設我有一個數據集,例如波士頓房價數據集,其中有連續變量和分類變量。在這裡,我們有一個“質量”變量,從 1 到 10,以及銷售價格。我可以通過(任意)為質量創建截止值,將數據分為“低”、“中”和“高”質量的房屋。然後,使用這些分組,我可以繪製銷售價格的直方圖。像這樣:

房屋質量和售價

這裡,“低”是,而“高”是關於“質量”分數。現在,我們得到了三個組中每個組的銷售價格分佈。很明顯,中高檔住宅的選址中心存在差異。現在,完成所有這些之後,我想“嗯。位置中心似乎有所不同!為什麼我不對均值進行 t 檢驗?”。然後,我得到一個似乎正確拒絕均值沒有差異的原假設的 p 值。

現在,假設在繪製數據之前我沒有任何想法來檢驗這個假設。

這是數據疏浚嗎?

如果我想:“嗯,我打賭質量更高的房子成​​本更高,因為我是以前住過房子的人。我要繪製數據。啊哈!看起來不一樣!時間進行 t 檢驗!”

當然,如果收集數據集的目的是從一開始就測試這個假設,這不是數據挖掘。但通常必須使用給我們的數據集,並被告知“尋找模式”。考慮到這個模糊的任務,人們如何避免數據挖掘?為測試數據創建保留集?可視化是否“算作”窺探以測試數據提出的假設的機會?

簡要不同意/反駁@ingolifs 的回答:是的,可視化您的數據是必不可少的。但在決定分析之前進行可視化會帶您進入 Gelman 和 Loken 的分岔路花園。這與數據挖掘或 p-hacking 不同,部分是出於意圖(GoFP 通常是善意的),部分是因為您可能不會運行多個分析。但這一種窺探:因為您的分析依賴於數據,它可能會導致您得出錯誤或過於自信的結論。

您應該以某種方式確定您的預期分析是什麼(例如“高質量的房屋應該價格更高”)並在查看數據之前將其寫下來(甚至正式預先註冊)(可以查看您的預測變量)提前,只是不是響應變量,但如果你真的沒有先驗的想法,那麼你甚至不知道哪些變量可能是預測變量,哪些可能是響應);如果您的數據提出了一些不同或額外的分析,那麼您的文章可以說明您最初打算做什麼以及您最終要做什麼(以及為什麼)。

如果您真的在進行純粹的探索(即,您沒有先驗假設,您只想查看數據中的內容):

  • 您對提供樣品進行確認的想法很好。

    • 在我的世界中(我不使用龐大的數據集)由於樣本量較小而導致的分辨率損失會令人痛苦
    • 如果您的數據以任何方式(地理、時間序列等)結構化,則在選擇保留樣本時需要小心。好像數據是獨立同分佈的二次抽樣會導致過度自信(參見 Wenger 和 Olden Methods in Ecology and Evolution 2012),因此您可能需要挑選地理單位來堅持(參見 DJ Harris Methods in Ecology and Evolution 2015 示例)
  • 你可以承認你純粹是在探索。理想情況下,在這種情況下你會完全避開 p 值,但至少告訴你的聽眾你在 GoFP 中徘徊讓他們知道他們可以用大量的鹽來獲取 p 值。

我最喜歡的“安全統計實踐”參考資料是 Harrell’s Regression Modeling Strategies (Springer);他以嚴謹但實用的方式列出了推理、預測和探索的最佳實踐。

引用自:https://stats.stackexchange.com/questions/353857

comments powered by Disqus