Exploratory-Data-Analysis

探索性數據分析中的德克薩斯神槍手謬誤

  • October 16, 2015

我正在閱讀Nature 上的這篇文章,其中在數據分析的背景下解釋了一些謬誤。我注意到德克薩斯神槍手謬誤特別難以避免:

德克薩斯神槍手的寓言說明了數據分析期間等待的認知陷阱:一個無能的射手在穀倉邊發射隨機模式的子彈,在最大的彈孔群周圍畫一個目標,並自豪地指向他的成功。

他的靶心顯然是可笑的——但對於那些在連勝時相信“熱手”的賭徒,或者對於那些在彩票開獎時看到超自然意義的人來說,這個謬誤並不是那麼明顯。

對於研究人員來說,這也並不總是顯而易見的。Pashler 說:“你只是從數據中得到一些鼓勵,然後想,嗯,這就是前進的道路。” “你沒有意識到你有 27 個不同的選項,而你選擇了一個給你最滿意或最有趣的結果的選項,而現在你所從事的事情根本不是數據的公正表示。

我認為這種探索工作是司空見慣的,通常,假設是基於這部分分析構建的。有一個專門用於此過程的完整方法 ( EDA ):

John Tukey 提倡探索性數據分析,以鼓勵統計學家探索數據,並可能提出可能導致新數據收集和實驗的假設

看起來任何在沒有事先假設的情況下執行的探索過程都容易產生虛假的假設。

請注意,上面對 EDA 的描述實際上是在談論new data collection and experiments. 我了解在收集到新數據後,進行驗證性數據分析 (CDA) 是合適的。但是,我認為這種區分不是很清楚,儘管分離 EDA 和 CDA 是理想的,但肯定在某些情況下這是不可行的。我什至會說,嚴格遵循這種分離是不常見的,大多數從業者根本不贊同 EDA 範式。

所以我的問題是:EDA(或任何探索數據的非正式過程)是否使它更有可能落入德克薩斯神槍手謬誤?

如果將 EDA 的作用嚴格視為產生假設,那麼神槍手謬誤不適用。然而,隨後的驗證性試驗確實是獨立的,這一點非常重要。許多研究人員試圖通過匯總分析、薈萃分析和貝葉斯方法來“調和差異”。這意味著在這種分析中提出的至少一些證據包括“隨機彈孔周圍的圓圈”。

引用自:https://stats.stackexchange.com/questions/177191

comments powered by Disqus