Pca
使用 AIC(或 BIC)選擇 PCA 模型
我想使用 Akaike 信息準則 (AIC) 來選擇要在 PCA 中提取的適當數量的因子。唯一的問題是我不確定如何確定參數的數量。
考慮一個矩陣, 在哪裡表示變量的數量和觀察的數量,使得. 由於協方差矩陣是對稱的,因此最大似然估計為可以將 AIC 中的參數數量設置為.
或者,在 PCA 中,您可以提取第一個的特徵向量和特徵值, 給他們打電話和然後計算
在哪裡是平均殘差方差。據我所知,如果你有因素,那麼你會中的參數,中的參數, 和參數輸入. 這種方法正確嗎?隨著因素的數量增加到.
Minka ( Automatic selection of dimensionality for PCA , 2000) 和 Tipping & Bishop ( Probabilistic Principal Component Analysis ) 關於 PCA 概率視圖的工作可能會為您提供您感興趣的框架。Minka 的工作提供了對數的近似值-可能性在哪裡是數據集的潛在維度通過使用拉普拉斯近似;如明確所述:“拉普拉斯方法的簡化是 BIC 近似。 ”
顯然,這對您的問題採取了貝葉斯觀點,而不是基於 AIC 使用的信息論標準(KL 散度)。
關於最初的“參數數量的確定”問題,我也認為@whuber 的評論帶有正確的直覺。