Correlation

通過 PCA 的馬氏距離n<pn<pn`<p

  • March 7, 2012

我有一個矩陣,其中是基因的數量和是患者人數。任何處理過此類數據的人都知道總是大於. 使用我得到的特徵選擇然而,下降到一個更合理的數字仍然大於.

我想根據患者的遺傳特徵計算患者的相似性;我可以使用歐幾里得距離,但是 Mahalanobis 似乎更合適,因為它考慮了變量之間的相關性。問題(如本文所述)是馬氏距離,特別是協方差矩陣,以下情況下不起作用. 當我在 R 中運行 Mahalanobis 距離時,我得到的錯誤是:

Error in solve.default(cov, ...) :    system is computationally
singular: reciprocal condition number = 2.81408e-21

到目前為止,為了解決這個問題,我使用了 PCA,而不是使用基因,而是使用組件,這似乎讓我可以計算 Mahalanobis 距離;5 個分量代表大約 80% 的方差,所以現在.

**我的問題是:**我可以使用 PCA 有意義地獲得患者之間的馬氏距離,還是不合適?是否有替代的距離指標在什麼時候起作用之間也有很大的相關性變量?

如果您保留 PCA 中的所有組件 - 那麼新 PCA 空間中患者之間的歐幾里得距離將等於觀察變量空間中的馬氏距離。如果你跳過一些組件,那會改變一點,但無論如何。在這裡,我指的是單位方差 PCA 組件,而不是方差等於特徵值的那種(我不確定您的 PCA 實現)。

我的意思是,如果您想評估患者之間的馬氏距離,您可以應用 PCA 並評估歐幾里得距離。在應用 PCA 後評估馬氏距離對我來說似乎毫無意義。

引用自:https://stats.stackexchange.com/questions/24221

comments powered by Disqus