序數或區間數據的評分者間信度
哪種評估者間信度方法最適合序數或區間數據?
我相信“協議的聯合概率”或“Kappa”是為名義數據設計的。雖然可以使用“Pearson”和“Spearman”,但它們主要用於兩個評估者(儘管它們可以用於兩個以上的評估者)。
還有哪些其他措施適用於序數或區間數據,即兩個以上的評分者?
卡帕 () 統計量是一個質量指數,它比較 2 名評分者在名義或序數尺度上觀察到的一致性與僅憑偶然性預期的一致性(就像評分者在折騰一樣)。存在多個評估者情況的擴展(2,第 284-291 頁)。對於有序數據,您可以使用加權 , 基本上像往常一樣讀取非對角線元素有助於衡量一致性。Fleiss (3) 提供了解釋指南值,但這些只是經驗法則。
這統計量漸近等效於從雙向隨機效應方差分析估計的 ICC,但是來自通常的方差分析框架的顯著性檢驗和 SE 對於二進制數據不再有效。最好使用 bootstrap 來獲得置信區間 (CI)。Fleiss (8) 討論了加權 kappa 和類內相關性 (ICC) 之間的聯繫。
需要注意的是,一些心理測量學家不太喜歡因為它受測量對象的流行程度的影響,就像預測值受所考慮的疾病流行程度的影響一樣,這可能導致矛盾的結果。
評分者間信度評估者可以用 Kendall 的一致性係數來估計,. 當被評級的項目或單位的數量,. (2,第 269-270 頁)。這種漸近近似適用於中等值和(6),但少於 20 項或排列測試更合適(7)。斯皮爾曼之間有密切的關係和肯德爾的統計:可以直接從成對 Spearman 相關性的平均值計算(僅適用於非綁定觀察)。
多變量(序數數據)相關性也可用作評估者間一致性的度量。事實上,它們允許
- 估計如果以連續規模進行評級,相關性是什麼,
- 檢驗評分者之間的邊際同質性。
事實上,可以證明它是潛在特徵建模的一個特例,它允許放寬分佈假設 (4)。
關於連續(或假設的)測量,量化歸因於受試者間變異的方差比例的 ICC 很好。同樣,建議使用自舉 CI。正如@ars所說,基本上有兩個版本——協議和一致性——適用於協議研究(5)的情況,主要區別在於平方和的計算方式;“一致性”ICC 通常在不考慮項目×評分者交互作用的情況下進行估計。ANOVA 框架對於希望最小化評級數量 ( BIBD ) 的特定塊設計很有用——事實上,這是 Fleiss 工作的最初動機之一。這也是多個評估者的最佳方式. 這種方法的自然擴展稱為泛化理論。在評估模型:簡介中給出了簡要概述,否則標準參考是布倫南的書,在Psychometrika 2006 71(3)中進行了評論。
至於一般參考資料,我推薦Graham Dunn (Hodder Arnold, 2000)的*Statistics in Psychiatry的第 3 章。*為了更完整地處理可靠性研究,迄今為止的最佳參考是
鄧恩,G(2004 年)。可靠性研究的設計和分析。阿諾德。見國際流行病學雜誌的評論。
在 John Uebersax 的網站 Intraclass Correlation and Related Methods上有一個很好的在線介紹;它包括對 ICC 方法的優缺點的討論,特別是在序數尺度方面。
用於雙向評估(順序或連續測量)的相關 R 包可在心理測量任務視圖中找到;我通常使用psy、psych或irr包。還有concord包,但我沒用過。對於處理兩個以上的評估者,lme4包是一種允許輕鬆合併隨機效應的方法,但大多數可靠性設計可以使用 分析,
aov()
因為我們只需要估計方差分量。參考
- J科恩。加權 kappa:名義比例協議,規定部分信用的比例不一致。心理公報,70,213-220,1968。
- S Siegel 和 Jr N John Castellan。行為科學的非參數統計。麥格勞-希爾,第二版,1988 年。
- JL弗萊斯。比率和比例的統計方法。紐約:威利,第二版,1981 年。
- JS尤伯薩克斯。tetrachoric 和 polychoric 相關係數。評分者協議統計方法網站,2006 年。可在以下網址獲取:http: //john-uebersax.com/stat/tetra.htm。於 2010 年 2 月 24 日訪問。
- PE Shout 和 JL Fleiss。組內相關性:用於評估評估者的可靠性。心理公報,86,420-428,1979。
- MG肯德爾和B巴賓頓史密斯。m 排名問題。數理統計年鑑,10,275–287,1939。
- P勒讓德。一致性係數。在 NJ Salkind,編輯,研究設計百科全書。SAGE 出版物,2010 年。
- JL弗萊斯。加權 kappa 的等價性和類內相關係數作為可靠性的衡量標準。教育和心理測量,33,613-619,1973。