Nonparametric

像變異係數這樣的穩健(非參數)度量——IQR/中位數,還是替代?

  • October 4, 2012

對於一組給定的數據,價差通常以標準差或 IQR(四分位間距)的形式計算。

雖然 astandard deviation是標準化的(z 分數等),因此可用於比較來自兩個不同群體的分佈,但 IQR 並非如此,因為來自兩個不同群體的樣本可能具有兩個完全不同的尺度值,

e.g. 
Pop A:  100, 67, 89, 75, 120, ...
Pop B:  19, 22, 43, 8, 12, ...

我所追求的是一種穩健的(非參數)度量,我可以用它來比較不同人群中的變化。

選擇 1: IQR / Median——這類似於變異係數,即.

選擇2: Range / IQR

問題:對於比較人群之間的差異,哪種方法更有意義?如果是選擇 1,那麼選擇 2 是否對任何事情/有意義的事情有用,或者它是一個根本有缺陷的衡量標準?

這個問題意味著標準偏差(SD) 以某種方式歸一化,因此可用於比較兩個不同群體的變異性。不是這樣。正如彼得和約翰所說,這種歸一化是在計算變異係數(CV) 時完成的,它等於 SD/Mean。SD 與原始數據的單位相同。相反,CV 是一個無單位的比率。

您的選擇 1(IQR/中位數)類似於 CV。與 CV 一樣,只有當數據是比率數據時才有意義。這意味著零實際上是零。重量為零是沒有重量。零長度不是長度。作為一個反例,以 C 或 F 為單位的溫度沒有意義,因為零度溫度(C 或 F)並不意味著沒有溫度。簡單地在使用 C 或 F 標度之間切換將為 CV 或 IQR/中位數的比率提供不同的值,這使得這兩個比率都毫無意義。

我同意彼得和約翰的觀點,即您的第二個想法(範圍/IQR)對異常值不是很穩健,因此可能沒有用。

引用自:https://stats.stackexchange.com/questions/38635

comments powered by Disqus