在給學生論文評分時，我如何才能最好地處理具有不同慷慨程度的標記的影響？

November 13, 2014

大約 600 名學生在一項廣泛的評估中獲得分數，可以假定其具有良好的信度/效度。考核滿分100分，為計算機評分的多項選擇題。

這 600 名學生在第二次、次要的評估中也有分數。在第二次評估中，他們被分成 11 個小組，有 11 名不同的評分者，評分者之間在評分方面的“慷慨”或缺乏程度方面存在很大程度的差異，這是不受歡迎的。這第二次評估也是滿分 100 分。

學生沒有被隨機分配到隊列中，並且有充分的理由預期隊列之間的技能水平存在差異。

我的任務是確保第二個作業中的隊列標記之間的差異不會對個別學生產生實質性的優勢/劣勢。

我的想法是讓第二次評估的隊列分數與第一次評估的隊列分數保持一致，同時保持隊列內的個體差異。我們應該假設我有充分的理由相信這兩項任務的表現將是高度相關的，但這些標記的慷慨程度卻有很大差異。

這是最好的方法嗎？如果不是，那是什麼？

如果回答者可以提供一些關於如何實施良好解決方案的實用技巧，例如在 R 或 SPSS 或 Excel 中，將不勝感激。

知道評分者的不同是很好的，但仍然不能告訴你用什麼來補償評分。為簡單起見，想像一下只有兩個分級員。即使我們得出的結論是 1 年級學生始終比 2 年級學生慷慨 5 分，但這並不能告訴你如何處理兩名分別為 70 分的學生，一名被 1 年級學生評分，一名被 2 年級學生評分。我們是否說 2 年級學生是一個苛刻的標記，並將 70 提高到 75，同時保持 1 級學生標記的 70 不變？或者我們是否假設一年級學生過於寬容，將他的學生降低到 65 分，並保持 2 年級學生的 70 分不變？基於 11 年級學生的平均水平，我們是否會在中間妥協 - 擴展到您的案例？重要的是絕對成績，所以知道相對慷慨是不夠的。

你的結論可能取決於你覺得最終的絕對分數應該有多“客觀”。一種心智模型是建議每個學生都有一個“正確”的成績——如果他們有時間單獨標記每篇論文，則由首席評估員授予該成績——觀察到的成績是近似值。在此模型中，觀察到的成績需要對其評分者進行補償，以使他們盡可能接近未觀察到的“真實”成績。另一個模型可能是所有評分都是主觀的，我們試圖將每個觀察到的評分轉換為我們預測的分數，如果所有評分者都考慮過同一篇論文並為此達成某種妥協或平均評分，那麼它會被授予。我發現第二種模型作為一種解決方案不太令人信服，即使承認主觀性更現實。在教育環境中，通常有人對評估負有最終責任，以確保學生獲得“他們應得的成績”，但這種領導角色基本上免除了我們已經知道明顯不同意的評分者的責任。從這裡我假設那裡是我們旨在估計的一個“正確”等級，但這是一個有爭議的命題，可能不適合您的情況。

假設學生 A、B、C 和 D，都在同一個隊列中，“應該”分別被評為 75、80、85 和 90，但他們慷慨的評分者始終將 5 分打得太高。我們觀察到 80、85、90 和 95，應該減去 5，但是找到要減去的數字是有問題的。這不能通過比較群組之間的結果來完成，因為我們預計群組的平均能力會有所不同。一種可能性是使用多項選擇測試結果來預測第二個作業的正確分數，然後使用它來評估每個評分者和正確分數之間的差異。但做出這個預測並非易事——如果您預計兩次評估之間存在不同的均值和標準差，您不能只假設第二次評估的成績應該與第一次相匹配。

此外，學生在多項選擇和書面評估中的相對能力也不同。您可以將其視為某種隨機效應，形成學生“觀察到的”和“真實”成績的一個組成部分，但不會被他們的“預測”成績捕獲。如果隊列系統地不同並且隊列中的學生往往相似，那麼我們不應該期望這種效應在每個隊列中平均為零。如果一個隊列的觀察成績與他們的預測成績相比平均+5，這是不可能的以確定這是否是由於一個慷慨的評分者，一個比多項選擇更適合書面評估的隊列，還是兩者的某種組合。在極端情況下，該隊列甚至可能在第二次評估中具有較低的能力，但由一個非常慷慨的評分者彌補了這一點 - 反之亦然。你不能把它分開。它很困惑。

我也懷疑這種簡單的加法模型是否適合您的數據。評分者可能與首席評估者的不同之處不僅在於位置的變化，還在於分佈 - 儘管由於同類群組的同質性可能不同，您不能僅檢查每個群組中觀察到的成績的分佈來檢測這一點。此外，大部分分佈都有很高的分數，相當接近理論最大值 100。我預計這會由於接近最大值的壓縮而引入非線性 - 一個非常慷慨的評分者可能會給出 A、B、C 和 D 標記，例如85、90、94、97。這比僅僅減去一個常數更難逆轉。更糟糕的是，您可能會看到“剪裁”——一個非常慷慨的評分者可能會將它們評分為 90、95、100、100。這是不可能的反轉，有關 C 和 D 的相對性能的信息將不可恢復地丟失。

你的評分者的行為非常不同。您確定他們的區別僅在於整體的慷慨程度，而不是在評估的各個組成部分的慷慨程度？這可能值得檢查，因為它可能會引入各種複雜情況 - 例如，儘管 B 為 5 分“更好”，但觀察到的 B 成績可能比 A 差，即使評分者為每個組件分配的分數是單調遞增函數首席評估員的！假設評估分為 Q1（A 應該得分 30/50，B 45/50）和 Q2（A 應該得分 45/50，B 35/50）。想像一下評分者在 Q1 上非常寬鬆（觀察到的成績：A 40/50，B 50/50）但對 Q2 很苛刻（觀察到：A 42/50，30/50），那麼我們觀察到 A 和 80 的總分B. 如果你必須考慮組件分數，

可以說這是一個擴展的評論而不是一個答案，因為它沒有在你的問題的原始範圍內提出一個特定的解決方案。但是，如果您的評分員每人已經處理了大約 55 份試卷，那麼為了校準目的而不得不再看 5 份或 10 份試卷對他們來說是不是很糟糕？您已經對學生的能力有了很好的了解，因此可以從各個年級的試卷中挑選一份樣本。然後，您可以評估是否需要在整個測試或每個組件中補償評分者的慷慨，以及是否僅通過添加/減去常數或更複雜的方法（例如插值）來這樣做（例如，如果您擔心非線性度接近 100）。但請注意插值：假設首席評估員將五篇樣本論文標記為 70、75、80、85 和 90，評分者將它們標記為 80、88、84、93 和 96，因此對於順序存在一些分歧。您可能希望將 96 到 100 的觀察成績映射到 90 到 100 的區間，並將 93 到 96 的觀察成績映射到 85 到 90 的區間。但是對於低於此的分數需要一些想法。也許從 84 到 93 的觀察成績應該映射到 75 到 85 的區間？另一種方法是（可能是多項式）回歸，以從“觀察到的成績”中獲得“預測的真實成績”的公式。也許從 84 到 93 的觀察成績應該映射到 75 到 85 的區間？另一種方法是（可能是多項式）回歸，以從“觀察到的成績”中獲得“預測的真實成績”的公式。也許從 84 到 93 的觀察成績應該映射到 75 到 85 的區間？另一種方法是（可能是多項式）回歸，以從“觀察到的成績”中獲得“預測的真實成績”的公式。

引用自：https://stats.stackexchange.com/questions/123814

comments powered by Disqus

在給學生論文評分時，我如何才能最好地處理具有不同慷慨程度的標記的影響？

相關問答