Pca
PCA 與隨機投影
與 PCA 相比,在哪些情況下使用隨機投影來降低數據集的維數更有利?更有利的是,我的意思是保留數據集點之間的距離。
PCA 保持最佳投影。
使用隨機投影的一些原因是:
- 對於非常高的維度,如果速度是一個問題,那麼在大小矩陣上考慮 $ n \times k $ , PCA 需要 $ O(k^2 \times n+k^3) $ 時間,而隨機投影需要 $ O(nkd) $ , 你在一個大小的子空間上投影 $ d $ .
- 使用稀疏矩陣甚至更快。
- 數據很可能是低維的,但不在線性子空間中。PCA 假設這一點。
- 隨機投影對於降低高斯混合的維數也非常快。
- 如果數據非常大,您不需要將其保存在內存中進行隨機投影,而對於 PCA,您需要。
- 一般來說,PCA 在相對低維的數據上效果很好。