Pca

PCA 在多重共線性下不穩定嗎?

  • April 14, 2011

我知道在回歸情況下,如果您有一組高度相關的變量,這通常是“壞的”,因為估計係數的不穩定性(當行列式趨於零時,方差趨於無窮大)。

我的問題是這種“壞處”是否會在 PCA 情況下持續存在。當協方差矩陣變得奇異時,任何特定 PC 的係數/負載/權重/特徵向量是否會變得不穩定/任意/非唯一?我對只保留第一個主成分而所有其他成分都被視為“噪音”或“其他東西”或“不重要”的情況特別感興趣。

我認為不會,因為您將只剩下一些零方差或接近零方差的主成分。

很容易看出,在具有 2 個變量的簡單極端情況下,情況並非如此——假設它們完全相關。然後第一個 PC 將是精確的線性關係,第二個 PC 將與第一個 PC 垂直,所有觀測值的所有 PC 值都為零(即零方差)。想知道它是否更一般。

答案可以用更簡單的術語給出:如果從線性代數的角度來看,多元回歸比 pca 多一步,從第二步開始,不穩定性就存在了:

pca和mult的第一步。回歸可以看作是相關矩陣的分解分為兩個膽汁因素,它們是三角形的 - 並且與低或高相關性無關。(然後可以將 pca 視為(三角形)cholesky 因子到 pc 位置的旋轉(據我所知,這稱為 Jacobi 旋轉)

多。回歸過程是應用該cholesky因子的反演減去因變量的行和列,它方便地位於相關矩陣的最後一行。

不穩定性在這裡起作用:如果自變量高度相關,則cholesky因子的對角線 可以退化為非常小的數值 - 並將其反轉引入然後除以近零的問題。

引用自:https://stats.stackexchange.com/questions/9542

comments powered by Disqus