Multivariate-Analysis

為什麼分量中位數在更高維度上沒有意義?

  • April 8, 2020

我想通過計算每個單獨維度的組件中位數來計算高維點集的中位數。由每個單獨維度的中值組成的點就是高維點集的中值。

根據這本書,這不是一個好主意,因為中位數的一維概念並沒有簡單地將元素擴展到更高的維度。

為什麼是這樣?任何人都可以提供這種方法失敗並給出無意義結果的例子嗎?

我知道這個高維中位數不一定是點集的一個元素,但它仍然具有作為有意義的位置度量和對異常值具有魯棒性的特性。

基本概念是中位數將數據(或分佈)分成兩半,每半數相等(按計數或概率)。

即使在一維中,中位數也是有問題的。 發生聚類時,一組值可能接近 $ x_0 $ 和附近的另一個集群 $ x_1, $ 遠非 $ x_0. $ 數據量(或概率)的微小變化可以將中值從一個集群轉移到另一個集群。但是,至少,位數總是可以位於靠近某些數據值或概率支持的位置。因此,我們不應該抱怨同一現象的多維示例。

根本問題是,坐標為邊際中位數的點可能位於離任何數據值(或概率)不合理的位置。

這是三個維度的一個極端例子。 考慮一個九元素數據集,由一個附近的值組成 $ (1,0,0), $ 兩個值附近 $ (0,1,0), $ 和三個值,每個值都接近 $ (0,0,1) $ 和 $ (1,1,1). $ 當值是比例時,通常會出現這樣的數據:在這種情況下,立方體之外的任何東西都是沒有意義的,角落附近的值(如在這個數據集中)是極端的。

$$ \begin{array}{lll|r} \text{x}&\text{y} &\text{z}& \text{Count} \ \hline 1 & 0 & 0 & 1 \ 0 & 1 & 0 & 2 \ 0 & 0 & 1 & 3 \ 1 & 1 & 1 & 3 \ \hline 0 & 1 & 1 & \text{median} \end{array} $$

這些數據位於單位立方體的四個角附近:

數字

藍色星暴表示數據位置。它們的大小反映了每個位置的數據量:您可以看到在後面、右邊和頂部有大量的值。

您可以檢查此數據集中坐標的中位數是否接近 $ 0, $ $ 1, $ 和 $ 1, $ 分別。例如,第一個坐標的九個值中有四個等於 $ 1 $ 其他五個在附近 $ 0, $ 把他們的中位數放在附近 $ 0. $

因此,邊際中位數的點是 $ (0,1,1). $ 但這與任何數據都不相近——事實上,它離任何一個數據都盡可能遠。我們很難將這樣的“中位數”解釋為任何事物的中心。 所有數據都位於(相對較遠)它的一側。

對於替代方法,請參閱我們關於中位數的多元泛化的線程

引用自:https://stats.stackexchange.com/questions/459249

comments powered by Disqus