Pca
在內核 PCA 中計算主成分的具體過程是什麼?
在內核 PCA(主成分分析)中,您首先選擇一個所需的內核,用它來找到您的矩陣,通過矩陣,找到它的特徵值和特徵向量,然後將中心核矩陣乘以對應於最大特徵值的所需特徵向量。
結果應該是將特徵空間數據投影到低維子空間上。
據我所知,您將特徵值除以數字原始數據點來縮放它們。所以問題是,你選擇的特徵向量是否也需要縮放來乘以中心核矩陣,如果是,你怎麼做?
要在經典 PCA 中找到 PC,可以執行中心數據矩陣的奇異值分解(列中有變量) X=USV⊤ ; 列 US 被稱為主成分(即將原始數據投影到協方差矩陣的特徵向量上)。觀察所謂的格拉姆矩陣 G=XX⊤=US2U⊤ 有特徵向量 U 和特徵值 S2 ,因此另一種計算主成分的方法是通過各自特徵值的平方根來縮放 Gram 矩陣的特徵向量。
完全類比,這是一個計算內核主成分的完整算法:
- 選擇核函數 k(x,y) 從概念上講,它是目標空間中的標量積。
- 計算一個 Gram/kernel 矩陣 K 和 Kij=k(x(i),x(j)) .
- 通過以下技巧使內核矩陣居中:Kcentered=K−1nK−K1n+1nK1n=(I−1n)K(I−1n),
在哪裡 1n 是一個 n×n 所有元素等於的矩陣 1n , 和 n 是數據點的數量。- 查找特徵向量 U 和特徵值 S2 的中心核矩陣。將每個特徵向量乘以各自特徵值的平方根。
- 完畢。這些是內核主要組件。
具體回答您的問題,我認為不需要縮放特徵向量或特徵值 n 在步驟 4–5 中。
一個很好的參考是原始論文:Scholkopf B、Smola A 和 Müller KR,內核主成分分析,1999 年。請注意,它以一種更複雜的方式呈現相同的算法:您應該找到的特徵向量 K 然後將它們乘以 K (正如您在問題中所寫)。但是將矩陣與其特徵向量相乘會得到相同的特徵向量,該特徵向量按特徵值縮放(根據定義)。