Multiple-Comparisons

如何應對小樣本研究中的探索性數據分析和數據挖掘？

October 1, 2010

探索性數據分析 (EDA) 通常會導致探索不一定屬於初始假設集的其他“軌跡”。在樣本量有限且通過不同問卷收集的大量數據（社會人口統計數據、神經心理學或醫學量表——例如，心理或身體機能、抑鬱/焦慮水平、症狀清單）的研究中，我面臨著這種情況）。碰巧 EDA 有助於突出一些意外的關係（“意外”意味著它們未包含在初始分析計劃中），這些關係轉化為額外的問題/假設。

與過擬合的情況一樣，數據挖掘或窺探確實會導致無法泛化的結果。然而，當有大量數據可用時，（對於研究人員或醫生）很難假設一組有限的假設。

我想知道是否有公認的方法、建議或經驗法則可能有助於在小樣本研究的情況下描述 EDA。

我認為最重要的是在報告此類結果時要誠實，因為它們是 EDA 的意外發現，而不是基於先驗假設的初始分析計劃的一部分。有些人喜歡將此類結果標記為“假設生成”：例如，在 Google Scholar 上搜索該短語的第一次點擊在其摘要的結論部分包含以下內容：

由於這是一項“探索性”分析，因此應將這種影響視為假設產生並在其他試驗中進行前瞻性評估……

儘管請注意，儘管這是一項事後亞組分析，但它來自一項隨機對照試驗，而不是一項觀察性研究，其中問題變得更糟。菲利普科爾對觀察性（“流行病學”）研究可以在故意挑釁但有趣的評論中產生假設的想法嗤之以鼻：

P科爾。假設生成機。 流行病學1993；4 :271-273。

引用自：https://stats.stackexchange.com/questions/3252

comments powered by Disqus

相關問答

Covid-19 的預測效果如何？

December 15, 2021

為什麼是R噸R噸R_t（或者R0R0R_0) 而不是將衡量 Covid-19 擴張的首選指標的速度或時間加倍？

November 26, 2020

輝瑞的疫苗功效研究設計中使用了哪種統計模型？

November 17, 2020

德國的 COVID，時間序列的 LOO-CV

May 22, 2020

俄羅斯地區的每日 COVID-19 病例圖表在我看來令人懷疑——從統計的角度來看是這樣嗎？

May 21, 2020

探索性數據分析 (EDA) 是否真的需要/有用

March 19, 2020