如何正式測試正態(或其他)分佈中的“中斷”
在社會科學中經常出現的情況是,應該以某種方式分佈的變量,比如正常情況下,最終在某些點周圍的分佈不連續。
例如,如果有特定的截止點,例如“通過/失敗”,並且如果這些措施受到扭曲,那麼此時可能存在不連續性。
一個突出的例子(下面引用)是學生標準化考試成績通常分佈在幾乎所有地方,除了 60%,其中 50-60% 的質量非常少,而 60-65% 的質量過多。這種情況發生在教師為自己的學生考試評分的情況下。作者調查了教師是否真的在幫助學生通過考試。
毫無疑問,最令人信服的證據來自顯示在不同測試的不同截止點周圍有很大不連續性的鐘形曲線圖。但是,您將如何開發統計測試?他們嘗試了插值,然後比較了高於或低於的分數,並對截止值上方和下方的分數 5 點進行了 t 檢驗。雖然明智,但這些都是臨時的。有人能想到更好的嗎?
鏈接: 學生和學校評估中的規則和自由裁量權:以紐約攝政考試為例 http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf
正確構建問題並採用有用的分數概念模型非常重要。
問題
潛在的作弊閾值,例如 55、65 和 85,是獨立於數據的先驗已知的:它們不必從數據中確定。(因此,這既不是異常值檢測問題,也不是分佈擬合問題。)測試應該評估一些(不是全部)分數剛好低於這些閾值的證據被移動到這些閾值(或者,可能只是超過這些閾值)。
概念模型
對於概念模型,至關重要的是要了解分數不太可能具有正態分佈(也不是任何其他容易參數化的分佈)。這在發布的示例和原始報告中的所有其他示例中都非常清楚。這些分數代表了學校的混合;即使任何學校內的分佈是正態的(它們不是正態的),混合也不太可能是正態的。
一種簡單的方法接受存在真實的分數分佈:除了這種特殊形式的作弊之外,將被報告的分數分佈。 因此,它是一個非參數設置。這似乎太寬泛了,但是在實際數據中可以預測或觀察到分數分佈的一些特徵:
- 分數的計數 i−1 , i , 和 i+1 將密切相關, 1≤i≤99 .
- 圍繞分數分佈的一些理想化平滑版本,這些計數會有所不同。這些變化的大小通常等於計數的平方根。
- 相對於閾值的作弊 t 不會影響任何分數的計數 i≥t . 它的影響與每個分數的計數成正比(受作弊影響的“有風險”的學生人數)。對於分數 i 低於此閾值,計數 c(i) 將減少一些分數 δ(t−i)c(i) 這個金額將被添加到 t(i) .
- 變化量隨著分數和閾值之間的距離而減小: δ(i) 是一個減函數 i=1,2,… .
給定一個閾值 t ,原假設(沒有作弊)是 δ(1)=0 , 暗示 δ 是相同的 0 . 另一種選擇是 δ(1)>0 .
構建測試
使用什麼檢驗統計量?根據這些假設,(a)影響在計數中是相加的,(b)最大的影響將出現在閾值附近。這表明查看計數的第一個差異, c′(i)=c(i+1)−c(i) . 進一步考慮建議更進一步:在替代假設下,我們期望看到一系列逐漸降低的計數作為分數 i 接近閾值 t 從下面,然後(i)在 t 其次是 (ii) 在 t+1 . 那麼,為了最大化測試的力量,讓我們看一下第二個差異,
c″(i)=c′(i+1)−c′(i)=c(i+2)−2c(i+1)+c(i),
因為在 i=t−1 這將結合較大的負下降 c(t+1)−c(t) 與負的大幅正增長 c(t)−c(t−1) ,從而放大了作弊效果。
我將假設——這可以檢查——閾值附近的計數的序列相關性相當小。(其他地方的序列相關性是不相關的。)這意味著方差 c″(t−1)=c(t+1)−2c(t)+c(t−1) 大約是
var(c″(t−1))≈var(c(t+1))+(−2)2var(c(t))+var(c(t−1)).
我之前建議過 var(c(i))≈c(i) 對所有人 i (也可以檢查的東西)。何處
z=c″(t−1)/√c(t+1)+4c(t)+c(t−1)
應該大約有單位方差。對於大分數人群(發布的人群看起來約為 20,000),我們可以預期大約為正態分佈 c″(t−1) , 也。由於我們期望一個高度負值來表示作弊模式,我們很容易獲得大小測試 α : 寫作 Φ 對於標準正態分佈的 cdf,拒絕在閾值處沒有作弊的假設 t 什麼時候 Φ(z)<α .
例子
例如,考慮這組真實的測試分數,從三個正態分佈的混合中得出 iid:
為此,我在門檻處應用了作弊時間表 t=65 被定義為 δ(i)=exp(−2i) . 這將幾乎所有的作弊都集中在 65 分以下的一兩個分數上:
為了了解測試的作用,我計算了 z 對於每一個分數,而不僅僅是 t ,並根據分數繪製:
(其實,為了避免小數的麻煩,我先從0到100的每個數加1,以便計算分母 z .)
65 附近的波動很明顯,所有其他波動的大小都趨向於 1,這與該測試的假設一致。檢驗統計量為 z=−4.19 對應的 p 值為 Φ(z)=0.0000136 , 一個非常顯著的結果。與問題本身的圖形進行視覺比較表明該測試將返回至少一樣小的 p 值。
(但請注意,測試本身不使用此圖,顯示該圖是為了說明這些想法。該測試僅查看閾值處的繪圖值,沒有其他地方。儘管如此,製作這樣的圖是一個好習慣確認測試統計量確實將預期閾值作為作弊點,並且所有其他分數都不受這種變化的影響。在這裡,我們看到在所有其他分數之間都有大約 -2 和 2 之間的波動,但很少還要注意,實際上不需要計算該圖中值的標準差來計算 z ,從而避免與欺騙效應相關的問題,誇大多個位置的波動。)
當將此測試應用於多個閾值時,對測試大小進行 Bonferroni 調整是明智的。同時應用於多個測試時的額外調整也是一個好主意。
評估
在對實際數據進行測試之前,不能認真地建議使用此程序。一個好方法是為一個測試取分數,並使用測試的非關鍵分數作為閾值。據推測,這樣的門檻並沒有受到這種形式的作弊。根據這個概念模型模擬作弊,研究模擬的作弊分佈 z . 這將表明 (a) p 值是否準確和 (b) 表明模擬作弊形式的測試能力。事實上,人們可以*對正在評估的數據進行這種模擬研究,*從而提供一種非常有效的方法來測試測試是否合適以及它的實際能力是多少。因為檢驗統計 z 如此簡單,模擬將是可行的,並且可以快速執行。