混合模型作為預測模型有用嗎?
我對混合模型在預測建模方面的優勢有點困惑。由於預測模型通常用於預測先前未知觀察值的值,因此對我來說很明顯,混合模型可能有用的唯一方法是通過其提供總體水平預測的能力(即不添加任何隨機效應)。然而,問題是,到目前為止,根據我的經驗,基於混合模型的人口水平預測明顯低於基於僅具有固定效應的標準回歸模型的預測。
那麼關於預測問題,混合模型的意義何在?
編輯。問題如下:我擬合了一個混合模型(具有固定效應和隨機效應)和僅具有固定效應的標準線性模型。當我進行交叉驗證時,我得到以下預測準確性層次結構:1)使用固定和隨機效應進行預測時的混合模型(但這當然只適用於具有已知水平的隨機效應變量的觀察,所以這種預測方法似乎不適用於適合真正的預測應用!);2)標準線性模型;3)使用人口水平預測時的混合模型(因此排除了隨機效應)。因此,標準線性模型和混合模型之間的唯一區別是由於估計方法不同(即兩種模型中的效應/預測因子相同,但它們具有不同的相關係數),係數值略有不同。
所以我的困惑歸結為一個問題,為什麼我會使用混合模型作為預測模型,因為與標準線性模型相比,使用混合模型生成人口水平預測似乎是一種劣等策略。
這取決於數據的性質,但總的來說,我希望混合模型優於僅固定效應的模型。
舉個例子:對日照和麥稈高度之間的關係進行建模。我們對單個莖稈進行了多次測量,但許多莖稈是在同一地點測量的(在土壤、水和其他可能影響高度的物質中相似)。以下是一些可能的模型:
1) 身高~陽光
2)高度~陽光+場地
3) 高度 ~ 陽光 + (1|site)
我們希望使用這些模型來預測新小麥秸稈的高度,並對它們將經歷的陽光進行一些估計。我將忽略您為在僅固定效應模型中擁有許多站點而付出的參數懲罰,而只考慮模型的相對預測能力。
這裡最相關的問題是您嘗試預測的這些新數據點是否來自您測量的站點之一?你說這在現實世界中很少見,但它確實發生了。
A) 新數據來自您測量的站點
如果是這樣,模型#2 和#3 將優於#1。他們都使用更多相關信息(平均站點效應)來進行預測。
B) 新數據來自未測量的站點
由於以下原因,我仍然希望模型#3 的表現優於#1 和#2。
(i) 模型 #3 與 #1:
模型#1 將產生偏向於過度代表站點的估計。如果每個站點的點數相似,並且站點樣本具有合理的代表性,那麼您應該從兩者中獲得相似的結果。
(ii) 模型 #3 與 #2:
在這種情況下,為什麼模型 #3 會比模型 #2 更好?因為隨機效應利用了收縮- 站點效應將“收縮”到零。換句話說,與指定為固定效應時相比,將站點效應指定為隨機效應時,您會發現其極值更少。當總體均值可以合理地被認為是從正態分佈中得出時,這很有用並且可以提高您的預測能力(請參閱統計中的斯坦因悖論)。如果總體均值不符合正態分佈,這可能是個問題,但這通常是一個非常合理的假設,並且該方法對小偏差具有魯棒性。
[旁注:默認情況下,在擬合模型 #2 時,大多數軟件會使用其中一個站點作為參考,並估計其他站點的係數,以表示它們與參考的偏差。所以看起來好像沒有辦法計算整體的“人口效應”。但是您可以通過對所有單個站點的預測進行平均來計算這一點,或者更簡單地通過更改模型的編碼來計算每個站點的係數。]