Mean
中位數比均值更公平嗎?
我最近閱讀了建議您通常應該使用中位數而不是意味著消除異常值。示例:以下文章 http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/
目前有 16 條評論:
review = c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 3.750 5.000 4.062 5.000 5.000
因為他們使用均值,所以文章獲得 4 星,但如果他們使用中位數,則獲得 5 星。
中位數不是一個“更公平”的法官嗎?
實驗表明,中位數的誤差總是大於均值。中位數更差嗎?
library(foreach) # the overall population of bookjudgments n <- 5 p <- 0.5 expected.value <- n*p peoplesbelieve <- rbinom(10^6,n, p) # 16 ratings made for 100 books ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16) stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), median=median(ratings[i,])) # which mean square error is bigger? Mean's or Median's? meansqrterror.mean <- mean((stat[,"mean"]-expected.value)^2) meansqrterror.median <- mean((stat[,"median"]-expected.value)^2) res <- paste("mean MSE",meansqrterror.mean) res <- paste(res, "| median MSE", meansqrterror.median) print(res)
問題是您還沒有真正定義獲得良好或公平評級的含義。您在對@Kevin 的回答的評論中建議,如果一個差評取消了某個項目,您不喜歡它。但是比較兩個項目,一個有“完美記錄”,另一個有一個差評,也許應該反映這種差異。
中位數和均值之間有一個完整的(高維)連續體。您可以按價值排序選票,然後根據該順序中的位置取權重的加權平均值。平均值對應於所有權重相等,中值對應於中間只有一個或兩個條目獲得非零權重,修剪平均值對應於給予除第一對和最後一對之外的所有相同權重,但您也可以決定加權出帶重量的樣品或者, 在裡面隨意扔東西。也許這樣一個加權平均值,其中異常值的權重較小,但仍然是一個非零數量,可以結合中值和均值的良好特性?