為什麼分量中位數在更高維度上沒有意義?
我想通過計算每個單獨維度的組件中位數來計算高維點集的中位數。由每個單獨維度的中值組成的點就是高維點集的中值。
根據這本書,這不是一個好主意,因為中位數的一維概念並沒有簡單地將元素擴展到更高的維度。
為什麼是這樣?任何人都可以提供這種方法失敗並給出無意義結果的例子嗎?
我知道這個高維中位數不一定是點集的一個元素,但它仍然具有作為有意義的位置度量和對異常值具有魯棒性的特性。
基本概念是中位數將數據(或分佈)分成兩半,每半數相等(按計數或概率)。
即使在一維中,中位數也是有問題的。 發生聚類時,一組值可能接近 $ x_0 $ 和附近的另一個集群 $ x_1, $ 遠非 $ x_0. $ 數據量(或概率)的微小變化可以將中值從一個集群轉移到另一個集群。但是,至少,中位數總是可以位於靠近某些數據值或概率支持的位置。因此,我們不應該抱怨同一現象的多維示例。
根本問題是,坐標為邊際中位數的點可能位於離任何數據值(或概率)不合理的位置。
這是三個維度的一個極端例子。 考慮一個九元素數據集,由一個附近的值組成 $ (1,0,0), $ 兩個值附近 $ (0,1,0), $ 和三個值,每個值都接近 $ (0,0,1) $ 和 $ (1,1,1). $ 當值是比例時,通常會出現這樣的數據:在這種情況下,立方體之外的任何東西都是沒有意義的,角落附近的值(如在這個數據集中)是極端的。
$$ \begin{array}{lll|r} \text{x}&\text{y} &\text{z}& \text{Count} \ \hline 1 & 0 & 0 & 1 \ 0 & 1 & 0 & 2 \ 0 & 0 & 1 & 3 \ 1 & 1 & 1 & 3 \ \hline 0 & 1 & 1 & \text{median} \end{array} $$
這些數據位於單位立方體的四個角附近:
藍色星暴表示數據位置。它們的大小反映了每個位置的數據量:您可以看到在後面、右邊和頂部有大量的值。
您可以檢查此數據集中坐標的中位數是否接近 $ 0, $ $ 1, $ 和 $ 1, $ 分別。例如,第一個坐標的九個值中有四個等於 $ 1 $ 其他五個在附近 $ 0, $ 把他們的中位數放在附近 $ 0. $
因此,邊際中位數的點是 $ (0,1,1). $ 但這與任何數據都不相近——事實上,它離任何一個數據都盡可能遠。我們很難將這樣的“中位數”解釋為任何事物的中心。 所有數據都位於(相對較遠)它的一側。
對於替代方法,請參閱我們關於中位數的多元泛化的線程。