Mean

中位數比均值更公平嗎?

  • February 5, 2011

我最近閱讀了建議您通常應該使用中位數而不是意味著消除異常值。示例:以下文章 http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/

目前有 16 條評論:

review = c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review)  ## "ordinary" summary

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
1.000   3.750   5.000   4.062   5.000   5.000 

因為他們使用均值,所以文章獲得 4 星,但如果他們使用中位數,則獲得 5 星。

中位數不是一個“更公平”的法官嗎?


實驗表明,中位數的誤差總是大於均值。中位數更差嗎?

library(foreach)

# the overall population of bookjudgments
n <- 5
p <- 0.5
expected.value <- n*p
peoplesbelieve <- rbinom(10^6,n, p)

# 16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat    <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), 
                  median=median(ratings[i,]))

# which mean square error is bigger? Mean's or Median's?
meansqrterror.mean   <- mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median <- mean((stat[,"median"]-expected.value)^2)

res <- paste("mean MSE",meansqrterror.mean)
res <- paste(res, "| median MSE", meansqrterror.median)
print(res)

問題是您還沒有真正定義獲得良好或公平評級的含義。您在對@Kevin 的回答的評論中建議,如果一個差評取消了某個項目,您不喜歡它。但是比較兩個項目,一個有“完美記錄”,另一個有一個差評,也許應該反映這種差異。

中位數和均值之間有一個完整的(高維)連續體。您可以按價值排序選票,然後根據該順序中的位置取權重的加權平均值。平均值對應於所有權重相等,中值對應於中間只有一個或兩個條目獲得非零權重,修剪平均值對應於給予除第一對和最後一對之外的所有相同權重,但您也可以決定加權出帶重量的樣品或者, 在裡面隨意扔東西。也許這樣一個加權平均值,其中異常值的權重較小,但仍然是一個非零數量,可以結合中值和均值的良好特性?

引用自:https://stats.stackexchange.com/questions/6913

comments powered by Disqus