Mean

亞馬遜的“平均評級”是否具有誤導性?

  • July 3, 2012

如果我理解正確,1-5 級的圖書評分是李克特分數。也就是說,我的 3 不一定是別人的 3。這是一個序數規模的IMO。一個人不應該真正平均序數尺度,但絕對可以採用眾數、中位數和百分位數。

那麼,由於大部分人口比上述統計數據更了解*手段,因此**改變規則是否“可以”?*儘管研究界強烈譴責對基於李克特量表的數據取平均值,但對大眾(實際上來說)這樣做可以嗎?在這種情況下取平均值是否會誤導?

像亞馬遜這樣的公司似乎不太可能摸索基本統計數據,但如果不是,那麼我在這裡錯過了什麼?我們是否可以聲稱序數尺度是序數的方便近似來證明取平均值的合理性?有什麼依據?

使用平均值總結 5 分評級的集中趨勢的好處

正如@gung 提到的,我認為將五點項目的平均值作為集中趨勢指標通常有很好的理由。我已經在這裡概述了這些原因

轉述:

  1. 平均值很容易計算
  2. 均值直觀且易於理解
  3. 平均值是一個數字
  4. 其他索引通常會產生類似的對象排序

為什麼均值對亞馬遜有利

想想亞馬遜報告平均值的目標。他們的目標可能是

  • 為項目提供直觀易懂的評分
  • 確保用戶接受評級系統
  • 確保人們了解評級的含義,以便他們可以適當地使用它來為購買決策提供信息

亞馬遜提供了某種四捨五入的平均值、每個評分選項的頻率計數以及樣本大小(即評分數)。這些信息大概足以讓大多數人了解關於該項目的一般情緒和對此類評級的信心(即,具有 20 個評級的 4.5 比具有 2 個評級的 4.5 更可能準確;具有 10 5 的項目-star 評級和一個沒有評論的 1 星評級可能仍然是一個好項目)。

您甚至可以將均值視為一種民主選擇。許多選舉是根據哪位候選人在兩分制上獲得最高平均值來決定的。同樣,如果您認為每個提交評論的人都會獲得投票,那麼您可以將均值視為一種對每個人的投票進行同等加權的形式。

規模使用的差異真的是個問題嗎?

心理學文獻中已知有廣泛的評級偏差(有關評論,請參見 Saal 等人 1980),例如集中趨勢偏差、寬大偏差、嚴格偏差。此外,一些評估者會更隨意,而另一些則更可靠。有些人甚至可能係統地撒謊,提供虛假的正面或虛假的負面評論。在嘗試計算項目的真實平均評分時,這將產生各種形式的錯誤。

但是,如果您要從總體中隨機抽取樣本,則此類偏差會被抵消,並且在評估者的樣本量足夠大的情況下,您仍然會得到真實的平均值。

當然,您不會在亞馬遜上獲得隨機樣本,並且存在這樣的風險,即您為某個項目獲得的特定評估者集會系統地偏向於更寬鬆或更嚴格等等。也就是說,我認為亞馬遜的用戶會欣賞用戶提交的評分來自不完美的樣本。我還認為,在許多情況下,如果樣本量合理,大多數反應偏差差異很可能會開始消失。

超出平均水平的可能進展

在提高評分的準確性方面,我不會挑戰平均值的一般概念,而是我認為還有其他方法可以估計一個項目的真實總體平均評分(即,將獲得的平均評分是要求對項目進行評分的大型代表性樣本)。

  • 基於可信度的權重評估者
  • 使用貝葉斯評分系統,將平均評分估計為所有項目的平均評分和特定項目的平均值的加權總和,並隨著評分數量的增加增加特定項目的權重
  • 根據跨項目的任何一般評分趨勢調整評分者的信息(例如,通常給 3 分的人的 5 比通常給 4 分的人更有價值)。

因此,如果評分的準確性是亞馬遜的主要目標,我認為它應該努力增加每件商品的評分數量並採用上述一些策略。在創建“最佳”排名時,此類方法可能特別相關。然而,對於頁面上不起眼的評分,很可能樣本均值更好地滿足了簡單和透明的目標。

參考

  • Saal, FE, Downey, RG 和 Lahey, MA (1980)。評級評級:評估評級數據的心理測量質量。心理公報,88, 413。

引用自:https://stats.stackexchange.com/questions/31598

comments powered by Disqus