Pca

使用 AIC(或 BIC)選擇 PCA 模型

  • August 21, 2012

我想使用 Akaike 信息準則 (AIC) 來選擇要在 PCA 中提取的適當數量的因子。唯一的問題是我不確定如何確定參數的數量。

考慮一個矩陣, 在哪裡表示變量的數量和觀察的數量,使得. 由於協方差矩陣是對稱的,因此最大似然估計為可以將 AIC 中的參數數量設置為.

或者,在 PCA 中,您可以提取第一個的特徵向量和特徵值, 給他們打電話和然後計算

在哪裡是平均殘差方差。據我所知,如果你有因素,那麼你會中的參數,中的參數, 和參數輸入. 這種方法正確嗎?隨著因素的數量增加到.

Minka ( Automatic selection of dimensionality for PCA , 2000) 和 Tipping & Bishop ( Probabilistic Principal Component Analysis ) 關於 PCA 概率視圖的工作可能會為您提供您感興趣的框架。Minka 的工作提供了對數的近似值-可能性在哪裡是數據集的潛在維度通過使用拉普拉斯近似;如明確所述:“拉普拉斯方法的簡化是 BIC 近似。

顯然,這對您的問題採取了貝葉斯觀點,而不是基於 AIC 使用的信息論標準(KL 散度)。

關於最初的“參數數量的確定”問題,我也認為@whuber 的評論帶有正確的直覺。

引用自:https://stats.stackexchange.com/questions/34791

comments powered by Disqus