非高斯數據的 PCA

July 11, 2012

我有幾個關於 PCA 的快速問題：

PCA 是否假設數據集是高斯的？

當我將 PCA 應用於固有的非線性數據時會發生什麼？

給定一個數據集，該過程首先進行均值歸一化，將方差設置為 1，取一個 SVD，降低秩，最後將數據集映射到新的降秩空間。在新空間中，每個維度對應一個最大方差的“方向”。

但是，該數據集在新空間中的相關性是否始終為零，或者僅對於本質上為高斯的數據才如此？

假設我有兩個數據集，“A”和“B”，其中“A”對應於從高斯隨機採樣的點，而“B”對應於從另一個分佈（比如泊松）隨機採樣的點。

PCA(A) 與 PCA(B) 相比如何？

通過查看新空間中的點，我如何確定 PCA(A) 對應於從高斯採樣的點，而 PCA(B) 對應於從泊松採樣的點？

“A”中點的相關性是否為 0？

“B”中點的相關性也是0嗎？

更重要的是，我問的是“正確”的問題嗎？

我應該查看相關性，還是應該考慮其他指標？

您已經在這裡有幾個很好的答案（對@Cam.Davidson.Pilon 和@MichaelChernick 都+1）。讓我提出一些有助於我思考這個問題的觀點。

首先，PCA 對相關矩陣進行運算。因此，在我看來，重要的問題是使用相關矩陣來幫助您思考數據是否有意義。例如，皮爾遜積矩相關性評估兩個變量之間的線性關係；如果您的變量是相關的，但不是線性的，則相關性不是衡量關係強度的理想指標。（這是關於相關性和非正態數據的關於 CV 的一個很好的討論。）

其次，我認為了解 PCA 發生了什麼的最簡單方法是您只是在旋轉軸。當然，你可以做更多的事情，不幸的是，PCA 與因子分析混淆了（這肯定有更多的事情要做）。儘管如此，沒有花里胡哨的普通舊 PCA 可以被認為如下：

您在一張方格紙上以二維方式繪製了一些點；

你有一個透明度，上面畫著正交軸，原點有一個針孔；

您將透明度的原點（即針孔）居中將鉛筆尖穿過針孔以將其固定到位；

然後旋轉透明度，直到點（根據透明度的軸而不是原始軸進行索引時）不相關。

這不是 PCA 的完美比喻（例如，我們沒有將方差重新調整為 1）。但確實給了人們基本的想法。現在的重點是使用該圖像來考慮如果數據一開始不是高斯的，結果會是什麼樣子；這將幫助您確定此過程是否值得進行。希望有幫助。

引用自：https://stats.stackexchange.com/questions/32105

comments powered by Disqus

非高斯數據的 PCA

相關問答

SVD：為什麼右奇異矩陣寫為轉置

當 PCA 不產生降維時，這意味著什麼？

美白/去相關 - 為什麼它有效？

為什麼我不能通過 XX' 和 X’X 的特徵值分解獲得 X 的有效 SVD？

為什麼非消極性對於協同過濾/推薦系統很重要？

如何反轉 PCA 並從幾個主成分重建原始變量？