Multiple-Comparisons
如何應對小樣本研究中的探索性數據分析和數據挖掘?
探索性數據分析 (EDA) 通常會導致探索不一定屬於初始假設集的其他“軌跡”。在樣本量有限且通過不同問卷收集的大量數據(社會人口統計數據、神經心理學或醫學量表——例如,心理或身體機能、抑鬱/焦慮水平、症狀清單)的研究中,我面臨著這種情況)。碰巧 EDA 有助於突出一些意外的關係(“意外”意味著它們未包含在初始分析計劃中),這些關係轉化為額外的問題/假設。
與過擬合的情況一樣,數據挖掘或窺探確實會導致無法泛化的結果。然而,當有大量數據可用時,(對於研究人員或醫生)很難假設一組有限的假設。
我想知道是否有公認的方法、建議或經驗法則可能有助於在小樣本研究的情況下描述 EDA。
我認為最重要的是在報告此類結果時要誠實,因為它們是 EDA 的意外發現,而不是基於先驗假設的初始分析計劃的一部分。有些人喜歡將此類結果標記為“假設生成”:例如,在 Google Scholar 上搜索該短語的第一次點擊在其摘要的結論部分包含以下內容:
由於這是一項“探索性”分析,因此應將這種影響視為假設產生並在其他試驗中進行前瞻性評估……
儘管請注意,儘管這是一項事後亞組分析,但它來自一項隨機對照試驗,而不是一項觀察性研究,其中問題變得更糟。菲利普科爾對觀察性(“流行病學”)研究可以在故意挑釁但有趣的評論中產生假設的想法嗤之以鼻:
P科爾。假設生成機。 流行病學1993;4 :271-273。