Data-Transformation

如何公平地確定區域科學博覽會的獲獎者?

  • January 25, 2012

我需要幫助找出計算科學博覽會獲勝者的正確方法。我不希望我對統計和數學的無知妨礙孩子獲勝的機會。(許多獎學金和晉升福利受到威脅)。在此先感謝您的幫助。

首先是我們如何設置的一些背景:

我們的展會通常有大約 600 個學生項目。這些項目由個別學生或學生團隊完成和展示。一個團隊可以由 2 或 3 個孩子組成。

學生分為兩個部門:小學(6-8 年級)和中學(9-12 年級)。每個部門都有不同的類別:小學項目有 9 個類別,中學項目項目有 17 個類別。

每個部門的每個類別都授予一、二、三等獎。榮譽獎也頒發給超過第三名的展示位置。

對於每個項目,我們分配 4 到 6 名評委。我們根據評委的資格、他們的類別偏好和他們過去的評判經驗來分配我們的任務。(更有經驗的被分配到高級部門項目)。

評委如何為項目評分:

對於每個項目,有 5 個標準分配了分數。每個標準可以在 1 到 20 分之間授予。一般標準是:

  • 總體目標+假設+資源使用(1..20
  • 設計+程序(1..20
  • 數據收集+結果(1..20
  • 討論+結論(1..20
  • 面試(1..20

對於團隊項目,第六個標準被稱為“團隊扣分”,裁判可以為沒有參與或沒有出現的隊友扣分(最多 15分)。

  • 團隊扣除(0..-15

因此,法官可以為每個項目評分 5 到 100 分。如果項目是團隊項目,分數可以減少 15 分。

原始數據:

在幾個小時的過程中,我們從評委那裡收集了多達 3,600 個分數。這些分數被輸入到數據庫中,我可以在其中進行各種排序、平均、標準差計算等。我只是不知道我應該如何處理這些原始分數。現在,我正在為每個項目做一個簡單的平均,但我擔心我沒有調整法官的偏見、團隊扣除或任何其他我沒有考慮的事情。

期望的結果:

最後,我想對分數進行處理,以便我可以為每個類別頒發一、二、三等獎的項目,然後為後面的地方頒發榮譽獎。我想確信這些位置是正確計算的,獲勝的孩子應該得到認可(和獎品)。

非常感謝您閱讀我的長問題並幫助您解決這個問題。我很樂意回答您可能提出的任何後續問題。

我認為“答案”對於我在這裡的想法來說可能過於慷慨了。我喜歡探索性數據分析,而且我是箱線圖的忠實粉絲,所以這將反映在我的評論中。

你好,分數很高。:) 聽起來,在 600 個項目中,您至少有 78 個項目進入前 3 ( [9+17]x3) 名以及榮譽獎。通常我會說從每個類別的頂部和中間進行抽樣以進行評分審計,但由於你擁有的數字,這對你來說將是非常繁重的——而且只是你最終確定了評分。:)

我希望您可以使用統計數據包,因為我有一些您可以在下面使用的建議。

您是否查看過每個類別中分數的分佈?前 3、5 或 8 個項目的分數是否非常接近?這表明項目的質量非常相似,無論您做什麼,都可能至少會感覺到最終分數的任意性。

我不確定每個評委評分多少項目。假設他們得分合理(比如 >10,儘管這裡越高越好),對於每個評委,您可以計算他們評估的每個項目的總分的中位數和四分位數範圍(您有這麼多屬性,可能不是值得單獨查看它們中的每一個)。是否有任何評委似乎給出了特別高的分數,或者特別低的分數?是否有任何評委似乎一直在中間評分,所以他們可能給 10 分,這可以通過相對較小的四分位數範圍和可能值範圍中間的總分中位數來顯示。

對於團隊項目,您可以將他們基於總分的排名與應用團隊扣除後的排名進行比較。團隊扣除是否會影響原本排在前 3 名的團隊?

這些只是幫助您入門的建議。我認為將這些數據可視化可以為您提供一些關於排名是否公平的良好指標。

更新:這是您遇到的一個有趣的難題。聽起來每個法官都沒有評估足夠多的項目讓我們能夠為每個法官提出一個權重因子(考慮到法官的偏見),因為我們沒有足夠的數據來衡量- 評委之間的評分者可靠性,沒有足夠的重疊讓評委在相同項目上評分來做到這一點。您是否查看了前幾個項目的得分範圍 - 它們與得分較低的項目(自然界限?)之間是否存在明顯差異,得分最高的項目有多接近?

出於好奇,評委們是否給出了評分標準,所以他們在如何給每個標準打分方面幾乎沒有靈活性(例如,提供零假設給 1 分,提供一個或多個替代假設給 1 分……)或他們是否只知道他們可以獎勵的總積分數,而其餘的則由他們自己決定?如果他們有評分指南,我會更有信心分數是相當準確的。

引用自:https://stats.stackexchange.com/questions/21656

comments powered by Disqus