貝葉斯模型選擇和可信區間
我有一個包含三個變量的數據集,其中所有變量都是定量的。讓我們稱之為,和. 我正在通過 MCMC 以貝葉斯視角擬合回歸模型
rjags
我做了一個探索性分析和散點圖建議使用二次項。然後我裝了兩個模型
(1)
(2)
在模型一中,每個參數的影響大小都不小,95%可信區間不包含該值.
在模型 2 中,參數的影響大小和很小,所有參數的每個可信區間都包含.
可信區間包含的事實足以說參數不重要嗎?
然後我調整了以下模型
(3)
每個參數的影響大小都不小,但除了所有可信區間包含.
在貝葉斯統計中進行變量選擇的正確方法是什麼?
**編輯:**我可以在任何回歸模型中使用套索,比如 Beta 模型?我正在使用具有可變色散的模型,其中
在哪裡是一個向量。我應該先使用拉普拉斯也? **EDIT2:**我安裝了兩個模型,一個帶有高斯先驗,和一個拉普拉斯(雙指數)。
高斯模型的估計是
Mean SD Naive SE Time-series SE B[1] -1.17767 0.07112 0.0007497 0.0007498 B[2] -0.15624 0.03916 0.0004128 0.0004249 B[3] 0.15600 0.05500 0.0005797 0.0005889 B[4] 0.07682 0.04720 0.0004975 0.0005209 delta[1] -3.42286 0.32934 0.0034715 0.0034712 delta[2] 0.06329 0.27480 0.0028966 0.0028969 delta[3] 1.06856 0.34547 0.0036416 0.0036202 delta[4] -0.32392 0.26944 0.0028401 0.0028138
Lasso 模型的估計是
Mean SD Naive SE Time-series SE B[1] -1.143644 0.07040 0.0007421 0.0007422 B[2] -0.160541 0.05341 0.0005630 0.0005631 B[3] 0.137026 0.05642 0.0005947 0.0005897 B[4] 0.046538 0.04770 0.0005028 0.0005134 delta[1] -3.569151 0.27840 0.0029346 0.0029575 delta[2] -0.004544 0.15920 0.0016781 0.0016786 delta[3] 0.411220 0.33422 0.0035230 0.0035629 delta[4] -0.034870 0.16225 0.0017103 0.0017103 lambda 7.269359 5.45714 0.0575233 0.0592808
估計為和在 Lasso 模型中減少了很多,這意味著我應該從模型中刪除這個變量?
**EDIT3:**具有雙指數先驗(套索)的模型比具有高斯先驗的模型給了我更大的偏差、BIC 和 DIC 值,我什至在去除色散係數後得到更小的值在高斯模型中。
眾所周知,基於什麼是重要的(或其他一些標準,例如 AIC,可信區間是否包含 0 等)來構建模型是非常有問題的,特別是如果您隨後進行推理,就好像您沒有進行模型構建一樣。進行貝葉斯分析不會改變這一點(另請參閱https://stats.stackexchange.com/a/201931/86652)。即您不應該進行變量選擇,而應該進行模型平均(或者可以讓您獲得一些零係數但反映整個建模過程的東西,例如 LASSO 或彈性網絡)。
貝葉斯模型選擇更典型地框架為貝葉斯模型平均。你有不同的模型,每個模型都有不同的先驗概率。如果模型的後驗模型概率變得足夠低,則您基本上完全丟棄了該模型。對於每個模型的相同先驗權重和平坦先驗,模型平均與權重成比例每個模型都近似於此。
您也可以將模型平均表示為先驗,它是點質量(點質量的權重是效果恰好為零的先驗概率 = 效果不在模型中)和連續分佈(例如尖峰和平板先驗)。對於這樣的先驗,MCMC 採樣可能非常困難。
卡瓦略等人。通過暗示馬蹄形收縮先驗的工作方式類似於尖峰和平板先驗的連續近似來激發馬蹄形收縮。這也是將問題嵌入到分層模型中的情況,其中某些變量的影響大小和存在在某種程度上放鬆了其他變量所需的證據(通過全局收縮參數,這有點像錯誤發現率控制),另一方面,如果證據足夠清楚,則允許個體效應獨立存在。在 Stan/ rstan上構建的**brms R 包中提供了一個方便的實現。還有許多類似的先驗,例如馬蹄鐵+先驗,整個主題是一個正在進行的研究領域。