Pca

如何判斷 PCA 結果中沒有模式?

  • September 16, 2015

我有一個包含 19 個變量的 1000 多個樣本數據集。我的目標是根據其他 18 個變量(二進制和連續)預測二進制變量。我非常有信心 6 個預測變量與二元響應相關,但是,我想進一步分析數據集並尋找我可能遺漏的其他關聯或結構。為了做到這一點,我決定使用 PCA 和集群。

在標準化數據上運行 PCA 時,需要保留 11 個分量才能保留 85% 的方差。 在此處輸入圖像描述 通過繪製pairplots我得到這個: 在此處輸入圖像描述

我不確定接下來會發生什麼……我在 pca 中沒有看到明顯的模式,我想知道這意味著什麼,以及它是否可能是由於某些變量是二進制的事實引起的。通過運行具有 6 個集群的聚類算法,我得到以下結果,儘管有些斑點似乎很突出(黃色的),但這並不完全是一種改進。 在此處輸入圖像描述

正如您可能知道的那樣,我不是 PCA 方面的專家,但我看過一些教程以及它如何強大地一瞥高維空間中的結構。使用著名的 MNIST 數字(或 IRIS)數據集,它工作得很好。我的問題是:我現在應該怎麼做才能使 PCA 更有意義?聚類似乎沒有找到任何有用的東西,我怎麼能知道 PCA 中沒有模式,或者我接下來應該嘗試什麼來找到 PCA 數據中的模式?

您解釋的方差圖告訴我 PCA 在這裡毫無意義。11/18 是 61%,所以你需要 61% 的變量來解釋 85% 的方差。在我看來,PCA 並非如此。當 18 的 3-5 個因子解釋 95% 左右的方差時,我使用 PCA。

更新:查看由 PC 數量解釋的累積方差百分比圖。這是來自利率期限結構建模領域。您會看到 3 個分量如何解釋超過 99% 的總方差。這可能看起來像是 PCA 廣告的虛構示例 :) 然而,這是真實的。利率期限是如此相關,這就是為什麼 PCA 在這個應用程序中非常自然。您只需處理 3 個組件,而不是處理幾十個男高音。

在此處輸入圖像描述

引用自:https://stats.stackexchange.com/questions/172746

comments powered by Disqus

相關問答