Pca
非高斯數據的 PCA
我有幾個關於 PCA 的快速問題:
- PCA 是否假設數據集是高斯的?
- 當我將 PCA 應用於固有的非線性數據時會發生什麼?
給定一個數據集,該過程首先進行均值歸一化,將方差設置為 1,取一個 SVD,降低秩,最後將數據集映射到新的降秩空間。在新空間中,每個維度對應一個最大方差的“方向”。
- 但是,該數據集在新空間中的相關性是否始終為零,或者僅對於本質上為高斯的數據才如此?
假設我有兩個數據集,“A”和“B”,其中“A”對應於從高斯隨機採樣的點,而“B”對應於從另一個分佈(比如泊松)隨機採樣的點。
- PCA(A) 與 PCA(B) 相比如何?
- 通過查看新空間中的點,我如何確定 PCA(A) 對應於從高斯採樣的點,而 PCA(B) 對應於從泊松採樣的點?
- “A”中點的相關性是否為 0?
- “B”中點的相關性也是0嗎?
- 更重要的是,我問的是“正確”的問題嗎?
- 我應該查看相關性,還是應該考慮其他指標?
您已經在這裡有幾個很好的答案(對@Cam.Davidson.Pilon 和@MichaelChernick 都+1)。讓我提出一些有助於我思考這個問題的觀點。
首先,PCA 對相關矩陣進行運算。因此,在我看來,重要的問題是使用相關矩陣來幫助您思考數據是否有意義。例如,皮爾遜積矩相關性評估兩個變量之間的線性關係;如果您的變量是相關的,但不是線性的,則相關性不是衡量關係強度的理想指標。(這是關於相關性和非正態數據的關於 CV 的一個很好的討論。)
其次,我認為了解 PCA 發生了什麼的最簡單方法是您只是在旋轉軸。當然,你可以做更多的事情,不幸的是,PCA 與因子分析混淆了(這肯定有更多的事情要做)。儘管如此,沒有花里胡哨的普通舊 PCA 可以被認為如下:
- 您在一張方格紙上以二維方式繪製了一些點;
- 你有一個透明度,上面畫著正交軸,原點有一個針孔;
- 您將透明度的原點(即針孔)居中將鉛筆尖穿過針孔以將其固定到位;
- 然後旋轉透明度,直到點(根據透明度的軸而不是原始軸進行索引時)不相關。
這不是 PCA 的完美比喻(例如,我們沒有將方差重新調整為 1)。但確實給了人們基本的想法。現在的重點是使用該圖像來考慮如果數據一開始不是高斯的,結果會是什麼樣子;這將幫助您確定此過程是否值得進行。希望有幫助。