Teaching
為什麼不是所有測試都通過項目分析/響應理論進行評分?
為什麼項目分析/響應理論沒有得到更廣泛的應用,是否有統計上的原因?例如,如果老師進行了 25 個問題的多項選擇測試,並發現每個人都正確回答了 10 個問題,那麼 10 個問題的回答率非常低(比如 10%),剩下的 5 個問題被大約 50% 的人回答. 重新加權分數以使難題得到更多權重難道沒有意義嗎?
然而,在現實世界的測試中,幾乎所有問題的權重都是一樣的。為什麼?
以下鏈接討論了選擇最佳問題的歧視指數和其他困難衡量標準:http: //fcit.usf.edu/assessment/selected/responsec.html
看來,計算問題區分指數的方法只是用於前瞻性的方式(例如,如果一個問題沒有很好的區分,就扔掉它)。為什麼不對當前人群重新加權測試?
(你問是否有統計原因:我懷疑,但我猜測其他原因。)會不會有“移動球門柱”的呼聲?學生通常喜歡在參加考試時知道每個項目的價值。例如,當他們看到一些辛勤工作的答案最終沒有得到多少重視時,他們可能有理由抱怨。
許多教師和教授使用不繫統的、主觀的標準來評分測試。但是那些確實使用系統的人可能對將這些系統開放給特定的批評持謹慎態度——如果隱藏在更主觀的方法後面,他們可以在很大程度上避免這種情況。這或許可以解釋為什麼項目分析和 IRT 沒有得到更廣泛的使用。