Bayesian

研究員 1 運行 1000 個回歸,研究員 2 只運行 1 個,都得到相同的結果——他們應該做出不同的推論嗎?

  • December 14, 2017

想像一下,一位研究人員正在探索一個數據集並運行 1000 個不同的回歸,他發現它們之間有一個有趣的關係。

現在想像另一位具有相同數據的研究人員 只運行 1 個回歸,結果發現與另一位研究人員進行 1000 次回歸找到的結果相同。研究員 2 不認識研究員 1。

研究員 1 是否應該做出與研究員 2 不同的推論?為什麼?例如,研究員 1 是否應該執行多重比較校正,但研究員 2 不應該?

如果研究員 2 首先向您展示他的單一回歸,您會做出什麼推論?如果在那個研究人員 1 向你展示他的結果之後,你應該改變你的推論嗎?如果是這樣,它為什麼重要?

PS 1:如果談論假設的研究人員使問題變得抽象,請考慮一下:假設使用可用的最佳方法為您的論文只運行了一個回歸。然後另一位研究人員用相同的數據探索了 1000 個不同的回歸,直到他找到了與您運行的完全相同的回歸。你們兩個應該做出不同的推論嗎?兩個案件的證據是否相同?如果您知道其他研究人員的結果,您是否應該改變您的推論?公眾應該如何評估這兩項研究的證據?

**PS 2:**如果可能,請盡量具體並提供數學/理論證明!

這是我對您問題的“貝葉斯”傾向。我認為您已經描述了這樣一種情況,即具有不同先驗信息的兩個人在給定相同的數據集時應該得到不同的答案/結論。一個更直率/極端的例子是假設我們有一個“研究人員 1b”,他碰巧從任何假設中猜測回歸模型參數和結論。跑步回歸在概念上離猜測並不太遠。

我認為正在發生的事情……我們從上述問題中了解了研究人員的先驗信息?- 研究員 1 可能對模型有一個平坦的先驗

  • 研究員 2 對感興趣的模型有敏銳的先驗(認為是他們都適合的模型)

這顯然是一種簡化,但你可以在這裡看到,我們已經在沒有任何數據的情況下更加重視研究人員 2 的推論。但是你看,一旦他們都考慮了數據,研究人員 1 的後驗概率將增加…(……我們知道這一點,因為它比“更好”其他型號…)。研究員2的後腦不能集中,已經等於. 我們不知道的是數據支持了多少在替代品之上。我們也不知道不同的模型如何改變研究人員 1 的實質性結論。例如,假設所有模型包含一個通用術語,並且所有該變量的回歸參數顯著大於(例如適用於所有型號)。那麼即使許多模型都適合,也沒有問題得出顯著的積極影響。

你也沒有說數據集有多大,這很重要!如果你在談論一個數據集觀察和協變量/預測變量/自變量,那麼研究人員 1 可能仍然對模型非常不確定。但是,如果研究人員 1 正在使用觀察,這可以最終確定模型。

兩個人從不同的信息開始,看到相同的數據後繼續有不同的結論,根本沒有錯。但是……如果它們的“模型空間”重疊並且數據支持這個“重疊區域”,那麼看到相同的數據將使它們更接近。

引用自:https://stats.stackexchange.com/questions/318777

comments powered by Disqus