如何找到評級的置信區間?
Evan Miller 的“如何不按平均評分排序”建議使用置信區間的下限來獲得評分項目的合理總“分數”。但是,它使用的是伯努利模型:評級要么是豎起大拇指,要么是豎起大拇指。
用於分配離散分數的評級模型的合理置信區間是多少到星星,假設一個項目的評分數量可能很小?
我想我可以看到如何將 Wilson 和 Agresti-Coull 間隔的中心調整為
在哪裡或者(可能更好)這是所有項目的平均評分。但是,我不確定如何調整間隔的寬度。我的(修改後的)最好的猜測是
和,但我只能用手揮動它作為 Agresti-Coull 的類比,認為這是合理的
是否有適用的標準置信區間?(請注意,我沒有訂閱任何期刊或輕鬆訪問大學圖書館;一定要提供適當的參考,但請補充實際結果!)
就像 Karl Broman 在他的回答中所說,貝葉斯方法可能比使用置信區間要好得多。
置信區間的問題
為什麼使用置信區間可能效果不佳?一個原因是,如果您對某個項目沒有太多評分,那麼您的置信區間將會非常寬,因此置信區間的下限會很小。因此,沒有太多評分的項目最終會排在列表的底部。
然而,直觀地說,您可能希望沒有太多評分的項目接近平均項目,因此您希望將您對該項目的估計評分調整為所有項目的平均評分(即,您希望將您的估計評分推向先前的評分) . 這正是貝葉斯方法所做的。
貝葉斯方法 I:評級的正態分佈
一種將估計評級移向先驗的方法是,如 Karl 的回答,使用形式的估計:
- 是項目評分的平均值。
- 是所有項目的平均值(或您想要縮小評級的任何先前值)。
- 請注意,該公式只是一個加權組合和.
- 是分配給的權重, 在哪裡是啤酒的評論數量,並且是某種恆定的“閾值”參數。
- 請注意,當非常大,即當我們對當前項目有很多評分時,那麼非常接近 1,所以我們的估計評分非常接近而我們很少注意之前的. 什麼時候雖小,但非常接近於 0,因此估計的評分非常重視先驗.
事實上,當個別評分來自以該平均值為中心的正態分佈時,該估計值可以被給予貝葉斯解釋,作為項目平均評分的後驗估計。
但是,假設評級來自正態分佈有兩個問題:
- 正態分佈是連續的,但評級是離散的。
- 項目的評級不一定遵循單峰高斯形狀。例如,也許您的商品非常兩極分化,因此人們傾向於給它一個非常高的評價或給它一個非常低的評價。
貝葉斯方法 II:評級的多項式分佈
因此,讓我們假設一個多項分佈,而不是假設收視率的正態分佈。也就是說,給定一些特定的項目,有一個概率一個隨機用戶會給它 1 星,一個概率隨機用戶會給它 2 星,依此類推。
當然,我們不知道這些概率是多少。隨著我們對這個項目的評價越來越多,我們可以猜到接近, 在哪裡是給它 1 星的用戶數量和是對該項目進行評分的用戶總數,但是當我們剛開始時,我們什麼都沒有。所以我們先放置一個狄利克雷 在這些概率上。
這個狄利克雷先驗是什麼?我們可以想到每一個參數作為某個虛擬人給予物品的次數的“虛擬計數”星星。例如,如果,, 和所有其他等於0,那麼我們可以認為這是說兩個虛擬人給了物品1星,一個虛擬人給了物品2星。因此,在我們獲得任何實際用戶之前,我們可以使用這個虛擬分佈來提供對項目評級的估計。
[一種選擇方法參數將設置等於總票數的比例星星。(請注意,參數不一定是整數。)]
然後,一旦實際評級進入,只需將它們的計數添加到 Dirichlet 之前的虛擬計數中。每當您想要估計您的項目的評級時,只需對所有項目的評級(其虛擬評級和實際評級)取平均值。