如何找到評級的置信區間？

September 23, 2011

Evan Miller 的“如何不按平均評分排序”建議使用置信區間的下限來獲得評分項目的合理總“分數”。但是，它使用的是伯努利模型：評級要么是豎起大拇指，要么是豎起大拇指。

用於分配離散分數的評級模型的合理置信區間是多少到星星，假設一個項目的評分數量可能很小？

我想我可以看到如何將 Wilson 和 Agresti-Coull 間隔的中心調整為

在哪裡或者（可能更好）這是所有項目的平均評分。但是，我不確定如何調整間隔的寬度。我的（修改後的）最好的猜測是

和，但我只能用手揮動它作為 Agresti-Coull 的類比，認為這是合理的

是否有適用的標準置信區間？（請注意，我沒有訂閱任何期刊或輕鬆訪問大學圖書館；一定要提供適當的參考，但請補充實際結果！）

就像 Karl Broman 在他的回答中所說，貝葉斯方法可能比使用置信區間要好得多。

置信區間的問題

為什麼使用置信區間可能效果不佳？一個原因是，如果您對某個項目沒有太多評分，那麼您的置信區間將會非常寬，因此置信區間的下限會很小。因此，沒有太多評分的項目最終會排在列表的底部。

然而，直觀地說，您可能希望沒有太多評分的項目接近平均項目，因此您希望將您對該項目的估計評分調整為所有項目的平均評分（即，您希望將您的估計評分推向先前的評分） . 這正是貝葉斯方法所做的。

貝葉斯方法 I：評級的正態分佈

一種將估計評級移向先驗的方法是，如 Karl 的回答，使用形式的估計：

是項目評分的平均值。

是所有項目的平均值（或您想要縮小評級的任何先前值）。

請注意，該公式只是一個加權組合和.

是分配給的權重，在哪裡是啤酒的評論數量，並且是某種恆定的“閾值”參數。

請注意，當非常大，即當我們對當前項目有很多評分時，那麼非常接近 1，所以我們的估計評分非常接近而我們很少注意之前的. 什麼時候雖小，但非常接近於 0，因此估計的評分非常重視先驗.

事實上，當個別評分來自以該平均值為中心的正態分佈時，該估計值可以被給予貝葉斯解釋，作為項目平均評分的後驗估計。

但是，假設評級來自正態分佈有兩個問題：

正態分佈是連續的，但評級是離散的。

項目的評級不一定遵循單峰高斯形狀。例如，也許您的商品非常兩極分化，因此人們傾向於給它一個非常高的評價或給它一個非常低的評價。

貝葉斯方法 II：評級的多項式分佈

因此，讓我們假設一個多項分佈，而不是假設收視率的正態分佈。也就是說，給定一些特定的項目，有一個概率一個隨機用戶會給它 1 星，一個概率隨機用戶會給它 2 星，依此類推。

當然，我們不知道這些概率是多少。隨著我們對這個項目的評價越來越多，我們可以猜到接近，在哪裡是給它 1 星的用戶數量和是對該項目進行評分的用戶總數，但是當我們剛開始時，我們什麼都沒有。所以我們先放置一個狄利克雷 在這些概率上。

這個狄利克雷先驗是什麼？我們可以想到每一個參數作為某個虛擬人給予物品的次數的“虛擬計數”星星。例如，如果,, 和所有其他等於0，那麼我們可以認為這是說兩個虛擬人給了物品1星，一個虛擬人給了物品2星。因此，在我們獲得任何實際用戶之前，我們可以使用這個虛擬分佈來提供對項目評級的估計。

[一種選擇方法參數將設置等於總票數的比例星星。（請注意，參數不一定是整數。）]

然後，一旦實際評級進入，只需將它們的計數添加到 Dirichlet 之前的虛擬計數中。每當您想要估計您的項目的評級時，只需對所有項目的評級（其虛擬評級和實際評級）取平均值。

引用自：https://stats.stackexchange.com/questions/15979

comments powered by Disqus

如何找到評級的置信區間？

置信區間的問題

貝葉斯方法 I：評級的正態分佈

貝葉斯方法 II：評級的多項式分佈

相關問答

如何估計相關觀測值的方差？

當因變量不是正態分佈時，OLS 估計量遵循什麼分佈？

為什麼我們在進行 MLE 時將對數似然乘以 -2？

為什麼是R噸R噸R_t（或者R0R0R_0) 而不是將衡量 Covid-19 擴張的首選指標的速度或時間加倍？

樣本量為 1 時的統計檢驗

誰首先進行了最大似然估計？