如何在 GLM 中使用主成分作為預測變量？

February 12, 2012

假設 PCA 用於 GLM 的變量選擇，我將如何在廣義線性模型 (GLM) 中使用主成分分析 (PCA) 的輸出？

**澄清：**我想使用 PCA 來避免在 GLM 中使用相關變量。但是，PCA 給了我類似的輸出.2*variable1+.5*variable3。我習慣於將變量 1 和 3 放入 GLM。因此，由於 PCA 給了我一個線性組合，我是否應該將其作為新變量放入 GLM 中（以考慮變量 1 和 3 響應的系統變化）？

在線性模型中使用主成分的一個子集而不是原始變量作為解釋變量是可能的，有時也是適當的。然後需要對得到的係數進行反向變換以應用於原始變量。結果是有偏差的，但可能優於更直接的技術。

PCA 提供一組主成分，它們是原始變量的線性組合。如果你有您仍然擁有的原始變量最終的主要成分，但它們已被旋轉維空間，因此它們彼此正交（即不相關）（僅用兩個變量最容易思考）。

在線性模型中使用 PCA 的訣竅是您決定消除一定數量的主成分。該決定基於與用於構建模型的“通常”的黑色藝術變量選擇過程類似的標準。

該方法用於處理多重共線性。它在線性回歸中相當常見，具有從線性預測變量到響應的正態響應和恆等鏈接函數；但在廣義線性模型中不太常見。網上至少有一篇關於這些問題的文章。

我不知道有任何用戶友好的軟件實現。做 PCA 並使用得到的主成分作為廣義線性模型中的解釋變量將是相當簡單的；然後翻譯回原始比例。然而，估計你的估計者的分佈（方差、偏差和形狀）會很棘手；廣義線性模型的標準輸出將是錯誤的，因為它假設您正在處理原始觀察結果。您可以圍繞整個過程（PCA 和 glm 結合）構建引導程序，這在 R 或 SAS 中都是可行的。

引用自：https://stats.stackexchange.com/questions/22665

comments powered by Disqus

如何在 GLM 中使用主成分作為預測變量？

相關問答

如果使用所有 PC，PCA 是否提供優勢？

統計學習要素中的圖 3.6 是否正確？

為什麼我們在線性回歸中建模噪聲而不是邏輯回歸？

與統計學習導論類似的書籍

為什麼 R 在廣義線性模型的上下文中將分佈族稱為“誤差分佈”？

用二項式數據解釋廣義線性混合模型