Goodness-of-Fit

如何證明 Elo 評級或頁面排名對我的設置有意義?

  • January 19, 2011

我有一組球員。他們互相對抗(成對)。隨機選擇成對的玩家。在任何遊戲中,一個玩家贏,另一個玩家輸。玩家互相玩有限數量的遊戲(一些玩家玩更多遊戲,一些玩家玩更少)。所以,我有數據(誰贏了誰,贏了多少次)。現在我假設每個玩家都有一個決定獲勝概率的排名。

**我想檢查這個假設是否真的是真的。**當然,我可以使用Elo 評分系統PageRank 算法來計算每個玩家的評分。但是通過計算收視率,我並不能證明它們(收視率)確實存在或它們意味著什麼。

換句話說,我想有一種方法來證明(或檢查)球員確實有不同的優勢。我該怎麼做?

添加

更具體地說,我有 8 名球員,只有 18 場比賽。所以,有很多配對的球員沒有互相交手,也有很多配對的球員只交手過一次。因此,我無法估計給定一對玩家獲勝的概率。例如,我還看到有一個球員在 6 場比賽中贏了 6 次。但也許這只是一個巧合。

你需要一個概率模型。

排名系統背後的理念是,一個數字足以代表球員的能力。我們可以稱這個數字為他們的“實力”(因為“排名”在統計中已經意味著特定的東西)。我們可以預測,當力量(A)超過力量(B)時,玩家 A 將擊敗玩家 B。但是這個陳述太弱了,因為(a)它不是定量的,並且(b)它沒有考慮到一個較弱的玩家偶爾會擊敗一個較強的玩家的可能性。我們可以通過假設 A 擊敗 B 的概率僅取決於他們的實力差異來克服這兩個問題。 如果是這樣,那麼我們可以重新表達所有必要的優勢,以便優勢差異等於獲勝的對數機率。

具體來說,這個模型是

其中,根據定義,是對數賠率,我寫過玩家A的實力等

這個模型的參數和玩家一樣多(但自由度少了一個,因為它只能識別相對強度,所以我們將其中一個參數固定為任意值)。它是一種廣義線性模型(在二項式家族中,帶有 logit 鏈接)。

可以通過最大似然估計參數。同樣的理論提供了一種在參數估計周圍建立置信區間和檢驗假設的方法(例如,根據估計,最強的玩家是否明顯強於估計的最弱的玩家)。

具體來說,一組遊戲的可能性是產品

在確定其中一個的值後,其他人的估計是最大化這種可能性的值。因此,改變任何估計值都會降低其最大值的可能性。如果減少太多,則與數據不一致。通過這種方式,我們可以找到所有參數的置信區間:它們是改變估計值不會過度降低對數似然度的限制。一般假設可以類似地進行檢驗:假設限制強度(例如通過假設它們都相等),這個限制限制了可能性的大小,如果這個限制的最大值與實際最大值相差太遠,假設是拒絕。


在這個特殊問題中,有 18 個遊戲和 7 個自由參數。一般來說,參數太多了:有很大的靈活性,可以在不改變最大似然度的情況下完全自由地改變參數。因此,應用 ML 機器很可能證明是顯而易見的,即可能沒有足夠的數據對強度估計有信心。

引用自:https://stats.stackexchange.com/questions/6379

comments powered by Disqus