Sampling

正態分佈隨機變量的回歸係數抽樣分佈

  • June 10, 2014

基於兩個隨機變量的實現和有相關性, 我進行簡單的線性回歸.

使用已知的分佈和, 它們的相關性和實現的數量,我試圖找到回歸係數的抽樣分佈。

係數的估計值可以計算為:

在哪裡是一個估計和是估計

在哪裡是均值的估計和

直覺上,我認為回歸係數應該服從正態分佈。但是,經過一些額外的想法,我不再確定。繪製分佈從 10,000 次實驗運行(黑色)與擬合正態分佈相比,可以看出與正態分佈的偏差。這也是更多迭代(我測試了多達 100,000 次)的情況,正態分佈應該相當穩定。有關該實驗的更多詳細信息,請參見下文。

10,000 次實驗運行(黑色)與擬合正態分佈的 $\beta_1$ 分佈

尋找具體的分佈- 如果有的話 - 只是第二步。第一步,我試圖找到回歸係數的期望值和方差。

很清楚和.

但是,我很難得出這兩個參數的方差。我在文獻中找到了係數方差的一些定義。和.

然而,正如 whuber 所說,這些定義的條件是. 因此,只能針對特定的關聯進行計算,因此這些定義不適用於我的用例。在文獻中,我發現對固定的限制正在回到費舍爾(例如,他的工作“一般條件下降秩回歸估計量的漸近分佈”,從 1922 年開始)。但是,我沒有找到對隨機情況的考慮在最近的文獻中。我只找到了對(非中央)Wishart 發行版的參考。不過,我不確定 Wishart 發行版是否以及如何在我的用例中使用。

總的來說,我完全堅持如何在所描述的情況下得出差異,和是隨機變量。

對於有條件的情況,我找到了關於如何得出回歸係數方差的各種答案,例如https://stats.stackexchange.com/a/89155/48067。然而,由於不僅是一個隨機變量,答案中描述的方法不容易轉移到我的問題。

考慮到, 我假設的分佈可能由於某種原因對方差的計算有問題。我發現遵循伽馬分佈。因此,應該遵循具有明確定義的方差的廣義 gamma 分佈。但是,我不確定兩個廣義伽馬分佈隨機變量的商。有一個可以使用 Fisher 變換的偏態分佈 - 但是我不確定這是否有助於計算方差。最後,樣本協方差有一個奇怪的分佈,近似於一個移動的伽馬分佈。

總的來說,我已經得出了一些關於樣本特徵分佈的信息。然而,我還沒有找到一種方法來使用這些信息來導出我的用例中樣本係數的方差。

有人可以指出我正確的方向嗎?

根據要求,關於我的“模擬”的一些額外細節:

  • 大小為 N(例如 N=12)的樣本來自和(例如,) 使樣本具有特定的相關性(例如)。這是通過使用兩個不相關的隨機變量來實現的,並構造一個新的(相關的)作為並修正方差和為了有和
  • 的回歸在執行導致係數和
  • 重複步驟一和二(例如 10,000 次)
  • 結果的分佈和分析運行產生的結果

最後一步產生的分佈是我想要導出精確分佈參數的分佈,以便分析隨機變量抽樣產生的回歸參數的不確定性。

經過大量進一步的論文閱讀,我找到了一個非常簡單的答案。

Pearson [1] 和 Romanovsky [2] 在 1926 年獨立解決了這個問題。

博特發現,

這與我的模擬結果相符。

[1] 皮爾遜,卡爾。“研究從雙變量正態總體中隨機抽取的樣本常數的分佈模式。” 倫敦皇家學會會刊。A 系列 112.760(1926 年):1-14。

[2] 羅曼諾夫斯基,弗謝沃洛德·伊万諾維奇。“關於回歸係數在正常人群樣本中的分佈。” Bulletin de l’Académie des Sciences de l’URSS 20.9 (1926): 643-648。

引用自:https://stats.stackexchange.com/questions/102786

comments powered by Disqus