Multivariate-Analysis

中位數的多維版本是什麼[重複]

  • November 6, 2012

中位數的多維版本是什麼,它們的優缺點是什麼?我承認這沒有一個單一的答案,但我認為這是一個有用的問題,並且對其他人也有好處。

它有多穩定(即需要多少樣本才能對其進行合理估計)是一個潛在的但不是必需的正反問題,即如果您知道所需的樣本數量隨著維度的每次增加而呈指數增長它在 10 維中有用,但在 200 維中實際上無用,知道這將很有用。(我有點希望他們所有人都擁有這一點,真的,因為在 200 個維度中有如此多的“自由”,它只需要無數個點就可以沿著這麼多方向確定分佈的基本中間)。

注意: 我在接受這個答案後發現了這個問題。我以前沒有見過它,因為我沒有意識到同時存在多變量分析和多變量標籤。我不確定為什麼幾何中位數在那裡是一個不受歡迎的答案(1 票且接近底部),但在這裡卻是一個受歡迎的答案。

幾何中位數是中位數向更高維度的推廣。

中位數的屬性之一是它是與集合中所有其他點的距離最小的點,GM 推廣了這個概念(使用歐幾里得/L2 距離)。

關於魯棒性,維基百科的文章提到:“幾何中位數的擊穿點為 0.5。也就是說,多達一半的樣本數據可能會被任意破壞,而樣本的中位數仍然會為該位置提供穩健的估計未損壞的數據。”

接下來,請注意,在一個維度上,最小化 L1 和 L2 距離是相同的,但在更高維度上是不同的。所以,不同的規範會導致不同的概括。據我所知,這篇論文表明 L1 距離泛化(他們簡稱為“最小距離和”估計量)也是穩健的。

所以看起來至少有兩個有用的概括:L1(MSoD)和L2(GM)。

對於其他一些觀點,請注意,還可以考慮最小化距離的平方。這實際上是算術平均值。

引用自:https://stats.stackexchange.com/questions/43009

comments powered by Disqus