Pca

用於異常值檢測的穩健 PCA 與穩健的馬氏距離

  • October 18, 2017

穩健的 PCA(由Candes 等人 2009 年更早於 Netrepalli 等人 2014 年開發)是一種流行的多變量異常值檢測方法,但馬氏距離也可用於異常值檢測,因為協方差矩陣具有穩健的正則化估計。我很好奇使用一種方法相對於另一種方法的(缺點)優勢。

我的直覺告訴我,兩者之間最大的區別如下:當數據集“小”(在統計意義上)時,穩健的 PCA 會給出較低秩的協方差,而穩健的協方差矩陣估計會給出一個完整的 -由於 Ledoit-Wolf 正則化,秩協方差。這又如何影響異常值檢測?

本文比較了該領域的一些方法。他們將您鏈接到的穩健 PCA 方法稱為“PCP”(主成分追踪),並將您鏈接到的用於穩健協方差估計的方法族稱為 M 估計器。

他們認為

PCP 是為數據的統一損壞坐標設計的,而不是損壞的數據點(即異常值),因此,與 PCP 的比較對於此類數據有些不公平

並表明 PCP(又名健壯的 PCA)在某些情況下可能無法進行異常值檢測。

他們還談到了三種“子空間恢復的敵人”,即不同類型的異常值,以及哪種方法可能適合處理每一種異常值。將您自己的異常值與此處討論的三種“敵人”進行比較可能有助於您選擇一種方法。

引用自:https://stats.stackexchange.com/questions/308669

comments powered by Disqus