何時使用 GAM 與 GLM
我意識到這可能是一個潛在的廣泛問題,但我想知道是否有假設表明在 GLM(廣義線性模型)上使用 GAM(廣義加法模型)?
最近有人告訴我,只有當我假設數據結構是“可加的”時才應該使用 GAM,即我希望 x 的加法可以預測 y。另一個人指出,GAM 與 GLM 進行不同類型的回歸分析,並且當可以假設線性時,首選 GLM。
過去我一直在使用 GAM 來獲取生態數據,例如:
- 連續時間序列
- 當數據沒有線性形狀時
- 我有多個 x 來預測我認為有一些非線性相互作用的 y,我可以使用“曲面圖”和統計測試來可視化這些相互作用
我顯然不太了解 GAM 與 GLM 的不同之處。我相信這是一個有效的統計測試,(而且我看到 GAM 的使用有所增加,至少在生態期刊中),但我需要更好地了解它的使用何時超過其他回歸分析。
主要區別恕我直言,雖然“經典”形式的線性或廣義線性模型假設因變量和協變量之間的關係具有固定的線性或其他參數形式,但 GAM 並不先驗地假設這種形式的任何特定形式關係,並可用於揭示和估計協變量對因變量的非線性影響。更詳細地說,在(廣義)線性模型中,線性預測變量是 $ n $ 協變量, $ \sum_{i=1}^n \beta_i x_i $ ,在 GAM 中,該術語被平滑函數的總和取代,例如 $ \sum_{i=1}^n \sum_{j=1}^q \beta_i , s_j \left( x_i \right) $ , 其中 $ s_1(\cdot),\dots,s_q(\cdot) $ 是平滑的基函數(例如三次樣條)和 $ q $ 是基礎維度。通過組合基函數,GAM 可以表示大量的函數關係(這樣做它們依賴於假設真實的關係可能是平滑的,而不是擺動的)。它們本質上是 GLM 的擴展,但是它們的設計方式使它們對於揭示數值協變量的非線性效應特別有用,並且以“自動”方式這樣做(來自 Hastie 和 Tibshirani 的原始文章,它們具有*“完全自動化的優勢,即統計學家不需要“偵探”工作'*)。