Regression

當數據量很大時,回歸中的統計顯著性發生了什麼變化?

  • September 2, 2017

我正在閱讀有關大規模回歸(鏈接)的這個問題,其中whuber指出了一個有趣的點,如下所示:

“幾乎你運行的任何統計測試都會非常強大,幾乎可以肯定會識別出‘顯著’效應。你必須更多地關注統計重要性,例如效應大小,而不是顯著性。”

— 嗚嗚

我想知道這是否可以證明,或者只是實踐中的一些常見現象?

任何指向證明/討論/模擬的指針都會非常有幫助。

這很一般。

想像一下,有一個很小但非零的影響(即測試能夠獲得的與零值的一些偏差)。

在小樣本量下,拒絕的機會將非常接近類型 I 錯誤率(噪聲占主導地位的小影響)。

隨著樣本量的增加,估計效應應收斂於總體效應,而同時估計效應的不確定性會縮小(通常為),直到零情況與估計效果足夠接近,以至於在從總體中隨機選擇的樣本中仍然合理的可能性降低到實際上為零。

也就是說,對於零點,最終拒絕變得確定,因為在幾乎所有實際情況下,基本上總是會與零點存在一定程度的偏差。

引用自:https://stats.stackexchange.com/questions/301134

comments powered by Disqus