中位數比均值更公平嗎？

February 5, 2011

我最近閱讀了建議您通常應該使用中位數而不是意味著消除異常值。示例：以下文章 http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/

目前有 16 條評論：
review = c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review)  ## "ordinary" summary

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
1.000   3.750   5.000   4.062   5.000   5.000 
因為他們使用均值，所以文章獲得 4 星，但如果他們使用中位數，則獲得 5 星。

中位數不是一個“更公平”的法官嗎？

實驗表明，中位數的誤差總是大於均值。中位數更差嗎？
library(foreach)

# the overall population of bookjudgments
n <- 5
p <- 0.5
expected.value <- n*p
peoplesbelieve <- rbinom(10^6,n, p)

# 16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat    <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), 
                  median=median(ratings[i,]))

# which mean square error is bigger? Mean's or Median's?
meansqrterror.mean   <- mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median <- mean((stat[,"median"]-expected.value)^2)

res <- paste("mean MSE",meansqrterror.mean)
res <- paste(res, "| median MSE", meansqrterror.median)
print(res)

問題是您還沒有真正定義獲得良好或公平評級的含義。您在對@Kevin 的回答的評論中建議，如果一個差評取消了某個項目，您不喜歡它。但是比較兩個項目，一個有“完美記錄”，另一個有一個差評，也許應該反映這種差異。

中位數和均值之間有一個完整的（高維）連續體。您可以按價值排序選票，然後根據該順序中的位置取權重的加權平均值。平均值對應於所有權重相等，中值對應於中間只有一個或兩個條目獲得非零權重，修剪平均值對應於給予除第一對和最後一對之外的所有相同權重，但您也可以決定加權出帶重量的樣品或者, 在裡面隨意扔東西。也許這樣一個加權平均值，其中異常值的權重較小，但仍然是一個非零數量，可以結合中值和均值的良好特性？

引用自：https://stats.stackexchange.com/questions/6913

comments powered by Disqus

中位數比均值更公平嗎？

相關問答

總和的中點（不是平均值或中位數）有名稱嗎？

為什麼分量中位數在更高維度上沒有意義？

有人可以給出平均絕對誤差和中位數背後的直覺嗎？[複製]

是否有不止一個“中位數”公式？

為什麼最小化 MAE 會導致預測中位數而不是均值？

檢驗中位數差異