了解冰淇淋銷售與溫度的 PCA 圖
我正在獲取溫度與冰淇淋銷售的虛擬數據,並使用 K 均值(n 簇 = 2)對其進行分類以區分 2 個類別(完全虛擬)。
現在我正在對這些數據進行主成分分析,我的目標是了解我所看到的。我知道 PCA 的目標是降低維度(在這種情況下顯然不是)並顯示元素的方差。但是您如何閱讀下面的 PCA 圖,即您可以講述關於 PCA 圖中溫度與冰淇淋的故事是什麼?第 1 (X) 和第 2 (Y) PC 是什麼意思?
我知道 PCA 的目標是降低維度
這通常是人們所假設的,但實際上 PCA 只是您的數據在正交基礎上的表示。這個基礎仍然與您的原始數據具有相同的維度。什麼都沒有丟失……但是。降維部分完全取決於您。PCA 確保的是頂部你的新投影的尺寸是最好的 您的數據可能表示為的維度。最好是什麼意思?這就是解釋的差異所在。
顯然不是在這種情況下
我不會那麼肯定!從您的第二個圖中,從視覺上看,您的數據中的很多信息都可以投影到水平線上。那是一維,而不是二維的原始圖!顯然,由於您正在移除 Y 軸,您會丟失一些信息,但是您是否可以接受這種信息丟失,這是您的決定。
網站上有大量關於 PCA 是什麼的問題,因此我鼓勵您在此處、此處、此處或此處查看它們。如果您在那之後還有其他問題,請發布它們,我很樂意提供幫助。
作為您的實際問題:
PCA 情節中關於溫度與冰淇淋的故事是什麼?
既然新的坐標軸是原坐標的線性組合,那麼……基本上什麼都沒有!PCA 會給你一個答案,比如(數字組成):
這對你有用嗎?或許。但我猜不是:)
已編輯
我將添加這個我認為很有幫助的資源,因為交互式圖表很酷。
再次編輯
澄清什麼是最好的 方法:
當數據投影到它們上時,PCA 試圖找到產生最高方差的維度。假設您的數據有尺寸,第一個人電腦比其他任何東西都能解釋您數據中的更多差異尺寸可以。這就是我所說的最好的意思 . 這對你是否有用是另一回事。