使用每個選民的準確性和相關不確定性的投票系統
比方說,我們有一個簡單的“是/否”問題,我們想知道答案。並且有 N 人為正確答案“投票”。每個選民都有一個歷史記錄 - 1 和 0 的列表,顯示他們過去對這類問題的正確或錯誤。如果我們將歷史假設為二項分佈,我們可以找到選民在這些問題上的平均表現、它們的變化、CI 和任何其他類型的置信度指標。
基本上,我的問題是:如何將置信度信息納入投票系統?
例如,如果我們只考慮每個投票者的平均表現,那麼我們可以構建簡單的加權投票系統:
也就是說,我們可以將選民的權重乘以(對於“是”)或通過(對於“不”)。這是有道理的:如果選民 1 的正確答案的平均值等於, 選民 2 只有,可能比第一人的投票更重要。另一方面,如果第 1 個人只回答了 10 個此類問題,而第 2 個人回答了 1000 個此類問題,那麼我們對第 2 個人的技能水平比第 1 個人更有信心——可能第 1 個人很幸運,並且在 10 個相對成功的答案之後,他將繼續得到更糟糕的結果。
所以,更精確的問題可能聽起來像這樣:是否有統計指標結合了 -強度和對某些參數的信心?
您應該將選民的專業知識視為您系統的潛在變量。然後,您可以使用貝葉斯推理解決您的問題。作為圖形模型的表示可能是這樣的:
讓我們表示變量為了真正的答案,為了選民的投票和因為它的歷史。假設您還有一個“專業知識”參數這樣. 如果你先在這些-例如Beta先驗-您應該能夠使用貝葉斯定理來推斷, 然後積分計算
這些系統很難解決。您可以使用 EM 算法作為近似值,或使用完全似然最大化方案來執行精確的貝葉斯推理。
查看這篇論文Variational Inference for Crowdsourcing,Liu, Peng 和 Ihler 2012(昨天在 NIPS 上發表!),了解解決此任務的詳細算法。