排名列表比較

March 4, 2013

假設兩組，包括和每個項目從最重要到最不重要對一組 25 個項目進行排序。比較這些排名的最佳方法是什麼？

顯然，可以進行 25 次 Mann-Whitney U 檢驗，但這會導致需要解釋 25 次檢驗結果，這可能太多（並且在嚴格使用時會引發多重比較問題）。我也不完全清楚排名是否滿足該測試的所有假設。

我也會對有關評級與排名的文獻的指針感興趣。

一些背景：這 25 個項目都與教育有關，這兩組是不同類型的教育者。兩組都很小。

編輯以回應@ttnphns：

我並不是要比較第 1 組和第 2 組中項目的總排名 - 正如@ttnphns 指出的那樣，這將是一個常數。但是第一組和第二組的排名會有所不同；也就是說，第 1 組可能對第 1 項的排名高於第 2 組。

我可以逐項比較它們，獲得每個項目的平均或中位數排名並進行 25 次測試，但我想知道是否有更好的方法來做到這一點。

概括

我在詳細信息部分分享我的想法。我認為它們有助於確定我們真正想要實現的目標。

我認為這裡的主要問題是您尚未定義等級相似性的含義。因此，沒有人知道哪種方法可以更好地衡量等級之間的差異。

實際上，這讓我們基於猜測模糊地選擇一種方法。

我真正建議的是首先定義一個數學優化目標。只有這樣，我們才能確定我們是否真的知道我們想要什麼。

除非我們這樣做，否則真的不知道我們想要什麼。我們可能幾乎知道我們想要什麼，但幾乎知道 知道。

我在Details中的文字本質上是朝著達到等級相似度的數學定義邁出的一步。一旦我們確定了這一點，我們就可以自信地繼續選擇衡量這種相似性的最佳方法。

細節

根據您的評論之一：

“目標是看看兩組排名是否不同”，彼得弗洛姆。

在嚴格解釋目標的同時回答這個問題：

如果有任何項目，排名是不同的，那裡存在這樣，在哪裡是項目的排名按組和是同一項目但按組的排名.

否則，排名沒有什麼不同。

但我不認為你真的想要那種嚴格的解釋。因此，我認為您真正想說的是：

組的等級有多大不同和?

這裡的一種解決方案是簡單地測量最小編輯距離。即需要在組的排名列表上執行的最小編輯次數是多少使其與組的相同.

編輯可以定義為交換兩個項目，並且成本成本點取決於需要多少跳。所以如果項目需要與物品交換（為了達到組之間的相同等級和)，則此編輯的成本為.

但是這種方法合適嗎？為了回答這個問題，讓我們更深入地看一下：

它沒有標準化。如果我們說組間的距離是，而組的等級之間的距離是，並不一定意味著比彼此更相似是彼此的（這也可能意味著正在對一組更大的項目進行排名）。

它假設每次編輯的成本與跳數成線性關係。這對我們的應用程序域來說是真的嗎？會不會是邏輯關係更合適？還是指數型的？

它假定所有項目都同等重要。例如排名項目的分歧（比如）被視為與排名項目中的分歧相同（例如）. 在您的域中這是真的嗎？例如，如果我們對書籍進行排名，不同意對諸如 TAOCP 之類的著名書籍的排名是否與對諸如TAOUP之類的糟糕書籍的排名不同意同樣重要？

一旦我們解決了上述問題，並在兩個等級之間達到了合適的相似性度量，我們就需要提出更多有趣的問題，例如：

如果組之間的差異，觀察到這種差異或更極端差異的概率是多少和只是因為偶然的機會？

引用自：https://stats.stackexchange.com/questions/51295

comments powered by Disqus

排名列表比較

概括

細節

相關問答

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

韋爾奇檢驗似乎比等方差 t 檢驗差得多

比較 R 中兩個多項式回歸之間差異的統計顯著性

什麼是效果大小……為什麼它甚至有用？

在薈萃分析中，應該如何處理不包含原始數據的非重要研究？

樣本量不等：何時退出