Mixed-Model

L2 正則化與隨機效應收縮

  • March 15, 2017

隨機效應回歸的一個基本特性是隨機截距估計值向響應的整體均值“縮小”,作為每個估計值的相對方差的函數。

在哪裡 廣義線性混合模型 (GLMM) 也是如此,例如邏輯回歸。

這種收縮如何優於/不同於固定效應邏輯回歸,其中 ID 變量的單熱編碼和通過 L2 正則化的收縮?

在固定效應模型中,我可以通過改變懲罰來控制收縮量,, L2 正則化,而在隨機效應模型中,我無法控制收縮量。說“如果目標是推理則使用隨機效應模型,如果目標是預測則使用固定效應模型”是否正確?

這有點過於簡單了。混合效應回歸中的收縮由隨機效應結構中“類”/“組”之間的整體平衡加權,所以不是你不能選擇,而是你的組大小和強度證據選擇。(把它想像成一個加權的大均值)。此外,當您有多個組但每組中只有很少的數據時,混合效應模型非常有用:整體結構和部分池化甚至可以在每個組內進行更好的推理!

混合模型還有 LASSO(L1 正則化)、嶺(L2 正則化)和彈性網(L1 和 L2 正則化的組合)變體。換句話說,這些東西是正交的。在貝葉斯術語中,您可以通過分層/多級模型結構獲得混合效應收縮,並通過您選擇模型係數分佈的先驗進行正則化。

也許混淆源於“機器學習”(其中預測是目標)中頻繁使用正則化,但“統計”(其中推理是目標)中頻繁使用混合效應,但這更多是其他的副作用這些領域中常見數據集的各個方面(例如大小)和計算問題。混合效應模型通常更難擬合,因此如果忽略某些數據結構的正則化固定效應模型足以滿足您需要的預測,則可能不值得擬合混合效應模型。但是,如果您需要對數據進行推斷,那麼忽略其結構將是一個壞主意。

引用自:https://stats.stackexchange.com/questions/267739

comments powered by Disqus