您如何找到加權最小二乘回歸的權重?
我在 WLS 回歸的過程中有點迷茫。我得到了數據集,我的任務是測試是否存在異方差,如果有,我應該運行 WLS 回歸。
我已經進行了測試並找到了異方差的證據,所以我需要運行 WLS。有人告訴我 WLS 基本上是轉換模型的 OLS 回歸,但我對找到轉換函數有點困惑。我讀過一些文章,其中建議轉換可以是 OLS 回歸的平方殘差的函數,但如果有人能幫助我走上正確的軌道,我將不勝感激。
加權最小二乘 (WLS) 回歸不是轉換模型。相反,您只是將每個觀察結果或多或少地視為有關兩者之間潛在關係的信息和. 那些信息量大的點被賦予更多的“權重”,而那些信息量少的點被賦予較少的權重。您是對的,加權最小二乘 (WLS) 回歸在技術上僅在權重已知的情況下才有效。
但是,(OLS)線性回歸對異方差性相當穩健,因此,如果您的估計在大致範圍內,WLS 也是如此。OLS 回歸的一個經驗法則是,只要最大方差不大於最小方差的 4 倍,它就不會受到異方差的太大影響。例如,如果殘差/誤差的方差隨著,那麼如果高端殘差的方差小於低端殘差方差的四倍,那麼您就可以了。這意味著,如果您的體重使您處於該範圍內,那麼您是相當安全的。這是一種馬蹄鐵和手榴彈的情況。因此,您可以嘗試估計將殘差的方差與預測變量的水平相關聯的函數。
關於如何進行這種估計有幾個問題:
- 請記住,權重應該是方差的倒數(或您使用的任何內容)。
- 如果您的數據僅出現在離散級別,就像在實驗或方差分析中一樣,那麼您可以直接在每個級別估計方差並使用它。如果估計值是連續變量的離散水平(例如,0 毫克、10 毫克、20 毫克等),您可能想要平滑這些,但它可能不會有太大的區別。
- 但是,由於平方,方差估計很容易受到異常值和/或高槓桿點的影響。如果您的數據分佈不均勻,或者您的數據相對較少,不建議直接估計方差。最好估計一些預期與方差相關但更穩健的東西。一個常見的選擇是使用與條件均值的偏差的絕對值的平方根。(例如,在 R 中,
plot(model, which=2)
將顯示這些對象的散點圖,稱為“傳播水平圖”,可幫助您診斷潛在的異方差;在這裡看到我的答案。)更強大的可能是使用條件四分位數範圍,或條件中位數與中位數的絕對偏差。- 如果是一個連續變量,典型的策略是使用簡單的 OLS 回歸得到殘差,然後將 [ 3 ] 中的一個函數(很可能是根絕對偏差)回歸到. 該函數的預測值用於與該點關聯的權重。
- 從 OLS 回歸的殘差中獲取權重是合理的,因為 OLS 是無偏的,即使在存在異方差的情況下也是如此。儘管如此,這些權重取決於原始模型,並且可能會改變後續 WLS 模型的擬合。因此,您應該通過比較兩個回歸的估計 beta 來檢查您的結果。如果它們非常相似,你就可以了。如果 WLS 係數與 OLS 係數不同,則應使用 WLS 估計值手動計算殘差(WLS 擬合報告的殘差將考慮權重)。計算出一組新的殘差後,再次確定權重並在第二次 WLS 回歸中使用新的權重。應該重複這個過程,直到兩組估計的 beta 足夠相似(即使這樣做一次也不常見)。
如果這個過程讓你有些不舒服,因為權重是估計的,並且因為它們取決於早期的不正確模型,另一個選擇是使用Huber-White ‘sandwich’ 估計器。即使存在異方差性,無論多麼嚴重,這也是一致的,並且不取決於模型。它也可能減少麻煩。
我在這裡的回答中演示了加權最小二乘法的簡單版本和三明治 SE 的使用:Alternatives to one-way ANOVA for heteroscedastic data。