多元高斯數據的 PCA 分量在統計上是獨立的嗎?
如果我們的數據是多元正態分佈的,PCA 成分(在主成分分析中)是否在統計上獨立?如果是這樣,如何證明/證明這一點?
我問是因為我看到了這篇文章,其中最重要的答案是:
PCA 沒有做出明確的高斯假設。它找到使數據中解釋的方差最大化的特徵向量。主成分的正交性意味著它可以找到最不相關的成分來解釋盡可能多的數據變化。對於多元高斯分佈,分量之間的零相關性意味著獨立性,這對於大多數分佈而言並非如此。
答案是在沒有證據的情況下陳述的,並且似乎暗示如果數據是多元正態的,PCA 會產生獨立分量。
具體來說,假設我們的數據來自以下樣本:
我們把樣品進入我們的樣本矩陣行, 所以是. 計算 SVD(居中後)產量
我們可以說的列是統計獨立的,那麼? 這是真的嗎,只是為了,或者根本不正確?
我將從一個直觀的演示開始。
我生成了(a) 來自強非高斯 2D 分佈,和 (b) 來自 2D 高斯分佈。在這兩種情況下,我都將數據居中並執行奇異值分解. 然後對於每種情況,我製作了前兩列的散點圖,一個對另一個。請注意,它通常是稱為“主要組件”(PC);列PC 是否按比例縮放以具有單位範數;仍然,在這個答案中,我專注於. 以下是散點圖:
我認為諸如“PCA 組件不相關”或“PCA 組件依賴/獨立”之類的陳述通常是針對一個特定的樣本矩陣並參考跨行的相關性/依賴關係(參見例如@ ttnphns ’s answer here)。PCA 生成轉換後的數據矩陣,其中行是觀察值,列是 PC 變量。即我們可以看到作為樣本,並詢問PC變量之間的樣本相關性是什麼。這個樣本相關矩陣當然由下式給出,意味著 PC 變量之間的樣本相關性為零。這就是人們說“PCA 對協方差矩陣進行對角化”等時的意思。
結論 1:在 PCA 坐標中,任何數據都具有零相關性。
對於上面的兩個散點圖都是如此。然而,很明顯這兩個 PC 變量和左側(非高斯)散點圖不獨立;儘管它們的相關性為零,但它們是強烈依賴的,實際上是由一個. 事實上,眾所周知,不相關並不意味著獨立。
相反,兩個 PC 變量和右側(高斯)散點圖似乎“非常獨立”。通過任何標準算法計算它們之間的互信息(這是一種統計依賴性的度量:自變量的互信息為零)將產生一個非常接近於零的值。它不會完全為零,因為對於任何有限樣本大小(除非經過微調),它永遠不會完全為零;此外,計算兩個樣本的互信息有多種方法,給出的答案略有不同。但我們可以預期,任何方法都會產生非常接近於零的互信息估計。
結論 2:在 PCA 坐標中,高斯數據“非常獨立”,這意味著依賴性的標準估計值將為零左右。
然而,正如長長的評論鏈所示,這個問題更加棘手。事實上,@whuber 正確地指出 PCA 變量和(列)必須是統計相關的:列必須是單位長度並且必須是正交的,這會引入相關性。例如,如果第一列中的某個值等於,那麼第二列對應的值一定是.
這是真的,但實際上只適用於非常小的,例如(和定心後只有一台 PC)。對於任何合理的樣本量,例如如上圖所示,依賴的影響可以忽略不計;列是高斯數據的(縮放)投影,所以它們也是高斯的,這使得一個值幾乎不可能接近(這將需要所有其他接近的元素,這幾乎不是高斯分佈)。
結論 3:嚴格來說,對於任何有限,PCA坐標中的高斯數據是相關的;然而,這種依賴性實際上與任何.
我們可以通過考慮在. 在無限樣本量的限制下,樣本協方差矩陣等於總體協方差矩陣. 所以如果數據向量採樣自,則 PC 變量為(在哪裡和是的特徵值和特徵向量) 和. 即 PC 變量來自具有對角協方差的多元高斯。但是任何具有對角協方差矩陣的多元高斯分解為單變量高斯的乘積,這就是統計獨立性的定義:
結論 4:漸近地 () 高斯數據的PC變量作為隨機變量在統計上是獨立的,樣本互信息會使總體值為零。
我應該注意,可以以不同的方式理解這個問題(參見@whuber 的評論):考慮整個矩陣一個隨機變量(從隨機矩陣中獲得通過特定操作)並詢問是否有任何兩個特定元素和來自兩個不同列的數據在不同的抽取中是統計獨立的. 我們在後面的線程中探討了這個問題。
以下是上述所有四個臨時結論:
- 在 PCA 坐標中,任何數據都具有零相關性。
- 在 PCA 坐標中,高斯數據“非常獨立”,這意味著依賴性的標準估計值將為零左右。
- 嚴格地說,對於任何有限,PCA坐標中的高斯數據是相關的;然而,這種依賴性實際上與任何.
- 漸近地 () 高斯數據的PC變量作為隨機變量在統計上是獨立的,樣本互信息會使總體值為零。