Clustering

樣本協方差矩陣不可逆時怎麼辦?

  • February 12, 2013

我正在研究一些聚類技術,對於給定的 d 維向量集群,我假設多元正態分佈併計算樣本 d 維平均向量和样本協方差矩陣。

然後,當試圖確定一個新的、看不見的 d 維向量是否屬於這個集群時,我正在通過這個度量檢查它的距離:

這需要我計算協方差矩陣的逆. 但是給定一些樣本,我不能保證協方差矩陣是可逆的,如果不是,我該怎麼辦?

謝謝

如果您的樣本維度小於向量空間維度,則可能會出現奇異矩陣。如果您的樣本少於(什麼時候是你的維度),這種情況甚至必然會出現:樣本最多跨越一個維超平面。給定這麼小的樣本,您顯然無法計算正交空間中的方差。

這就是為什麼通常使用文字 PCA,而是執行奇異值分解,這可用於計算矩陣的偽逆。如果矩陣是可逆的,則偽逆​​將是逆矩陣。

但是,如果您看到的是不可逆矩陣,那麼如果向量在集群所代表的超平面之外,那麼您與集群的距離將毫無意義,因為您不知道正交空間中的方差(您可以想到這個方差為 0!)SVD 可以計算偽逆,但“方差”仍然不會由您的數據確定。

在這種情況下,您可能應該首先進行全局降維。僅當您實際上具有非冗余維度時,增加樣本量才會有所幫助:無論您從分佈中抽取多少樣本,矩陣永遠是不可逆的,你將無法判斷偏差關於標準偏差(0)。

此外,根據您計算協方差矩陣的方式,您可能會因災難性取消而遇到數值問題。最簡單的解決方法是始終首先將數據居中,以獲得零均值。

引用自:https://stats.stackexchange.com/questions/49826

comments powered by Disqus