Multicollinearity

變量和共線性的標準化

  • September 5, 2019

共線性會在各種回歸問題中造成一定的問題。特別是它可以使參數估計具有高方差和不穩定。

已經提出了各種方法來處理這個問題,包括嶺回歸、偏最小二乘回歸、主成分回歸、刪除變量和獲取更多數據。

一種有爭議的方法是對自變量進行標準化或縮放,許多專家表示這是一個好主意(例如 Garcia)或壞主意(例如 Belsley)。Belsley 的問題似乎是(在非技術方面)更換 IV 只是將問題推到了地毯下。但其他專家似乎並不同意。作者在捍衛自己的立場時往往會變得相當激烈。

當我做我的論文(關於共線性診斷)時,我發現貝爾斯利的論點很有說服力,但那是很久以前的事了(我在 1999 年獲得了學位)。

我正在尋找專家指導或任何當前公正的評論文章。

我不太清楚標準化是什麼意思,在尋找歷史時,我找到了兩個有趣的參考資料。

這篇最近的文章在引言中有一個歷史性的概述:

García, J.、Salmerón, R.、García, C. 和 López Martín, MDM (2016)。嶺回歸中變量的標準化和共線性診斷。國際統計評論,84 (2), 245-266

我發現另一篇有趣的文章聲稱表明標準化或居中根本沒有任何效果。

Echambadi, R., & Hess, JD (2007)。均值居中並不能緩解緩和多元回歸模型中的共線性問題。營銷科學,26 (3), 438-445。


對我來說,這種批評似乎有點像忽略了中心思想的要點。

Echambadi 和 Hess 唯一表明的是模型是等價的,並且您可以用非中心模型的係數來表示中心模型的係數,反之亦然(導致係數的相似方差/誤差)。

Echambadi 和 Hess 的結果有點微不足道,我相信任何人都沒有聲稱這(係數之間的關係和等價性)是不真實的。沒有人聲稱這些係數之間的關係是不正確的。這不是集中變量的重點。

居中的重點在於,在具有線性和二次項的模型中,您可以選擇不同的坐標比例,這樣您最終會在變量之間沒有或較少相關性的框架中工作。說你想表達時間的影響 $ t $ 在某個變量上 $ Y $ 並且您希望在以公元 1998 年到 2018 年表示的某個時期內執行此操作。在這種情況下,居中技術所要解決的問題是

“如果你表達線性和二次依賴的係數對時間的準確性,那麼當你使用時間時它們會有更大的方差 $ t $ 範圍從 1998 年到 2018 年,而不是中心時間 $ t^\prime $ 範圍從 -10 到 10"。

$$ Y = a + bt + ct^2 $$

相對

$$ Y = a^\prime + b^\prime(t-T) + c^\prime(t-T)^2 $$

當然,這兩個模型是等價的,而不是居中,您可以通過計算如下係數獲得完全相同的結果(因此估計係數的相同誤差)

$$ \begin{array}{} a &=& a^\prime - b^\prime T + c^\prime T^2 \ b &=& b^\prime - 2 c^\prime T \ c &=& c^\prime \end{array} $$

當您進行方差分析或使用諸如 $ R^2 $ 那麼就沒有區別了。

然而,這根本不是均值居中的重點。均值居中的意義在於,有時人們想要傳達係數及其估計的方差/準確性或置信區間,對於這些情況,模型的表達方式確實很重要。

示例:物理學家希望將某個參數 X 的一些實驗關係表達為溫度的二次函數。

 T   X
 298 1230
 308 1308
 318 1371
 328 1470
 338 1534
 348 1601
 358 1695
 368 1780
 378 1863
 388 1940
 398 2047

報告係數的 95% 區間不是更好嗎?

                2.5 %      97.5 %

(Intercept)      1602       1621
T-348               7.87       8.26
(T-348)^2           0.0029     0.0166

代替

                 2.5 %     97.5 %

(Intercept)       -839       816
T                   -3.52      6.05
T^2                  0.0029    0.0166

在後一種情況下,係數將由看似很大的誤差範圍表示(但沒有說明模型中的誤差),此外,誤差分佈之間的相關性將不清楚(在第一種情況下,誤差係數不會相關)。

如果有人像 Echambadi 和 Hess 一樣聲稱這兩個表達式是等價的並且居中無關緊要,那麼我們應該(因此使用類似的論點)也聲稱模型係數的表達式(當沒有自然截距和選擇是任意的)在置信區間或標準誤差方面是沒有意義的。

在這個問題/答案中,顯示的圖像也顯示了當係數估計中的誤差相關時,95% 置信區間如何不能說​​明係數的確定性(至少不是直觀地)。

圖片

引用自:https://stats.stackexchange.com/questions/425082

comments powered by Disqus

相關問答