Pca

當主要目標是僅估計少數組件時,PCA 或 FA 的最小樣本量是多少?

  • December 13, 2012

如果我有一個數據集觀察和變量(維度),通常是小 (), 和範圍可能很小() 到可能大得多 ()。

我記得學那個應該遠大於為了運行主成分分析 (PCA) 或因子分析 (FA),但在我的數據中似乎並非如此。請注意,出於我的目的,我很少對 PC2 之後的任何主要組件感興趣。

問題:

  1. 當 PCA 可以使用和不可以使用時,最小樣本量的經驗法則是什麼?
  2. 使用前幾台 PC 是否可以,即使或者?
  3. 有這方面的參考嗎?
  4. 如果您的主要目標是使用 PC1 和可能的 PC2,這是否重要:
  • 簡單地以圖形方式,或
  • 作為合成變量然後用於回歸?

您實際上可以衡量您的樣本量是否“足夠大”。小樣本量太小的一個症狀是不穩定。

引導或交叉驗證您的 PCA:這些技術通過刪除/交換一小部分樣本來擾亂您的數據集,然後為每個被擾亂的數據集構建“代理模型”。如果代理模型足夠相似(= 穩定),那麼您就可以了。您可能需要考慮到 PCA 的解決方案不是唯一的:PC 可以翻轉(將分數和各自的主成分乘以)。您可能還想使用 Procrustes 旋轉,以獲得盡可能相似的 PC 模型。

引用自:https://stats.stackexchange.com/questions/45820

comments powered by Disqus