我對因變量進行了對數轉換，我可以將 GLM 正態分佈與 LOG 鏈接功能一起使用嗎？

June 13, 2013

我有一個關於廣義線性模型 (GLM) 的問題。我的因變量 (DV) 是連續的且不正常。所以我對它進行了日誌轉換（仍然不正常但改進了它）。

我想將 DV 與兩個分類變量和一個連續協變量聯繫起來。為此，我想進行 GLM（我正在使用 SPSS），但我不確定如何決定要選擇的分佈和函數。

我已經進行了 Levene 的非參數檢驗，並且我有方差同質性，所以我傾向於使用正態分佈。我已經讀過，對於線性回歸，數據不需要是正常的，殘差是正常的。因此，我已經分別打印了來自每個 GLM 的線性預測變量的標準化 Pearson 殘差和預測值（GLM 正態恆等函數和正態對數函數）。我已經進行了正態性檢驗（直方圖和 Shapiro-Wilk），並分別針對預測值繪製了殘差（以檢查隨機性和方差）。恆等函數的殘差不正常，但對數函數的殘差正常。我傾向於使用對數鏈接函數選擇正態，因為 Pearson 殘差是正態分佈的。

所以我的問題是：

我可以在已經對數轉換的 DV 上使用具有 LOG 鏈接功能的 GLM 正態分佈嗎？

方差齊性檢驗是否足以證明使用正態分佈的合理性？

殘差檢查程序是否正確以證明選擇鏈接函數模型是正確的？

左側是 DV 分佈圖像，右側是帶有對數鏈接功能的 GLM 法線的殘差。

我可以在已經對數轉換的 DV 上使用具有 LOG 鏈接功能的 GLM 正態分佈嗎？

是的; 如果在該規模上滿足假設

方差齊性檢驗是否足以證明使用正態分佈的合理性？

為什麼方差相等意味著正態性？

殘差檢查程序是否正確以證明選擇鏈接函數模型是正確的？

您應該注意同時使用直方圖和擬合優度檢驗來檢查假設的適用性：

1）注意使用直方圖評估正態性。（另見此處）

簡而言之，根據您選擇的 binwidth 的微小變化，甚至只是 bin 邊界的位置等簡單的事情，就有可能獲得完全不同的數據形狀印象：

這是同一數據集的兩個直方圖。使用幾種不同的 binwidth 有助於查看印像是否對此敏感。

當心使用擬合優度檢驗得出正態假設是合理的結論。正式的假設檢驗並不能真正回答正確的問題。

例如，請參閱第2項下的鏈接。 這裡

關於方差，在一些使用類似數據集的論文中提到“因為分佈具有均勻方差，所以使用了具有高斯分佈的 GLM”。如果這不正確，我該如何證明或決定分配？

在正常情況下，問題不是“我的錯誤（或條件分佈）是否正常？” - 他們不會，我們甚至不需要檢查。一個更相關的問題是“目前的非正態性程度對我的推論有多大影響？”

我建議使用核密度估計或正態 QQplot（殘差與正態分數圖）。如果分佈看起來相當正常，那麼您不必擔心。事實上，即使它顯然是非正態的，它仍然可能不是很重要，這取決於你想要做什麼（例如，正態預測區間實際上將依賴於正態性，但許多其他事情往往會在大樣本量下起作用)

有趣的是，在大樣本中，正態性通常變得越來越不重要（除了上面提到的 PI），但是你拒絕正態性的能力越來越強。

編輯：關於方差相等的一點是，即使在大樣本量下，它確實*會影響你的推論。*但是您可能也不應該通過假設檢驗來評估這一點。無論您假設的分佈如何，弄錯方差假設都是一個問題。

我讀到模型的比例偏差應該在 Np 左右才能很好地擬合，對嗎？

當您擬合正態模型時，它具有比例參數，在這種情況下，即使您的分佈不正常，您的比例偏差也將約為 Np。

在您看來，帶有日誌鏈接的正態分佈是一個不錯的選擇

在繼續不知道您正在測量什麼或您正在使用推理的情況下，我仍然無法判斷是否建議 GLM 的另一個分佈，也無法判斷正態性對您的推理有多重要。

但是，如果您的其他假設也是合理的（至少應該檢查線性和方差相等性並考慮潛在的依賴來源），那麼在大多數情況下，我會很樂意做一些事情，比如使用 CI 並對係數或對比進行測試- 這些殘差中只有非常輕微的偏斜印象，即使它是真正的效果，也不應該對這些推斷產生實質性影響。

簡而言之，你應該沒問題。

（雖然另一種分佈和鏈接函數在擬合方面可能做得更好，但只有在有限的情況下它們才可能更有意義。）

引用自：https://stats.stackexchange.com/questions/61626

comments powered by Disqus

我對因變量進行了對數轉換，我可以將 GLM 正態分佈與 LOG 鏈接功能一起使用嗎？

相關問答

逆變換方法，理論圖與樣本不匹配

指數分佈的隨機變量的指數分佈？

非正態的混合是正態的嗎？

為什麼對數概率有用？

為什麼我們在線性回歸中建模噪聲而不是邏輯回歸？

與統計學習導論類似的書籍