Anova

組內相關係數與 F 檢驗(單向方差分析)?

  • April 30, 2011

我對類內相關係數和單向方差分析有點困惑。據我了解,兩者都告訴你一個組內的觀察與其他組的觀察有多麼相似。

有人可以更好地解釋這一點,或者解釋每種方法更有利的情況嗎?

兩種方法都依賴於相同的想法,即將觀察到的方差分解為不同的部分或組件。但是,我們是否將項目和/或評分者視為固定效應或隨機效應存在細微差別。除了說明總變異性的哪一部分由組間因子解釋(或組間方差與殘差方差相差多少)之外,F 檢驗並沒有說明太多。至少這適用於我們假設固定效應的單向方差分析(並且對應於下面描述的 ICC(1,1))。另一方面,在評估幾個“可交換”評級者的評級可靠性或分析單位之間的同質性時,ICC 提供了一個有界指數。

我們通常對不同類型的 ICC 進行以下區分。這源於 Shrout 和 Fleiss (1979) 的開創性工作:

  • 單向隨機效應模型ICC(1,1):每個項目由不同的評分者評分,這些評分者被認為是從更大的潛在評分者池中抽樣的,因此它們被視為隨機效應;然後,ICC 被解釋為受試者/項目方差佔總方差的百分比。這稱為一致性ICC。
  • 雙向隨機效應模型,ICC(2,1):兩個因素——評分者和項目/受試者——都被視為隨機效應,除了殘差方差外,我們還有兩個方差分量(或均方);我們進一步假設評分者評估所有項目/主題;在這種情況下,ICC 給出了歸因於評估者 + 項目/主題的方差百分比。
  • 雙向混合模型,ICC(3,1):與單向方法相反,這裡的評估者被視為固定效應(手頭樣本之外沒有泛化),但項目/受試者被視為隨機效應;分析單位可以是個人或平均評級。

這對應於表 1 中的案例 1 到 3。根據我們是否認為觀察到的評級是幾個評級的平均值(它們被稱為 ICC(1,k)、ICC(2,k)、和 ICC(3,k)) 與否。

總之,您必須選擇正確的模型(單向與雙向),這在 Shrout 和 Fleiss 的論文中進行了大量討論。單向模型傾向於產生比雙向模型更小的值;同樣,隨機效應模型產生的值通常低於固定效應模型。從固定效應模型派生的 ICC 被認為是評估評估者一致性的一種方式(因為我們忽略了評估者方差),而對於隨機效應模型,我們談論評估者一致性的估計(評估者是否可以互換)。只有雙向模型包含評估者 x 主題交互,這在試圖解開非典型評級模式時可能會很有趣。

下圖很容易複製/粘貼psychICC()包中的示例(數據來自 Shrout 和 Fleiss,1979)。數據由 4 名評委 (J) 評估 6 個受試者或目標 (S) 組成,總結如下(我假設它存儲為名為 的 R 矩陣)sf

  J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

這個例子很有趣,因為它顯示了模型的選擇如何影響結果,從而解釋了可靠性研究。所有 6 種 ICC 模型如下(這是 Shrout 和 Fleiss 論文中的表 4)

Intraclass correlation coefficients 
                        type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

可以看出,將評估者視為固定效應(因此不試圖推廣到更廣泛的評估者池)將為測量的同質性產生更高的值。(使用irr包 ( )可以獲得類似的結果icc(),儘管我們必須使用不同的模型類型和分析單元選項。)

ANOVA 方法告訴我們什麼?我們需要擬合兩個模型來獲得相關的均方:

  • 僅考慮主題的單向模型;這允許分離被評級的目標(組間 MS、BMS)並獲得誤差內項 (WMS) 的估計
  • 考慮主題 + 評估者 + 他們的交互的雙向模型(當沒有復制時,最後一項將與殘差混淆);如果我們想使用隨機效應模型,這允許估計評估者主效應(JMS)(即,我們將其添加到總可變性中)

無需查看 F 檢驗,此處僅對 MS 感興趣。

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

現在,我們可以在一個擴展的 ANOVA 表中組裝不同的部分,如下所示(這是 Shrout 和 Fleiss 論文中的表 3):

(來源:mathurl.com

其中前兩行來自單向模型,而接下來的兩行來自雙向方差分析。

很容易檢查 Shrout 和 Fleiss 文章中的所有公式,並且我們擁有估計單個評估的可靠性所需的一切。多重評估平均值的可靠性如何(通常是評估者間研究中感興趣的數量)?根據 Hays 和 Revicki (2005),只需改變分母中考慮的總 MS,就可以從上述分解中獲得,除了雙向隨機效應模型,我們必須重寫 MS 的比率。

  • 在ICC(1,1)=(BMS-WMS)/(BMS+(k-1)•WMS)的情況下,整體可靠性計算為(BMS-WMS)/BMS=0.443。
  • 對於ICC(2,1)=(BMS-EMS)/(BMS+(k-1)•EMS+k•(JMS-EMS)/N),整體可靠性為(N•(BMS-EMS))/ (N•BMS+JMS-EMS)=0.620。
  • 最後,對於 ICC(3,1)=(BMS-EMS)/(BMS+(k-1)•EMS),我們的可靠性為 (BMS-EMS)/BMS=0.909。

同樣,我們發現將評分者視為固定效應時,整體可靠性更高。

參考

  1. Shout, PE 和 Fleiss, JL (1979)。組內相關性:用於評估評估者的可靠性心理公報,86,420-3428。
  2. Hays, RD 和 Revicki, D. (2005)。可靠性和有效性(包括響應性)。在 Fayers, P. 和 Hays, RD (eds.),評估臨床試驗中的生活質量,第 2 版,第 25-39 頁。牛津大學出版社。

引用自:https://stats.stackexchange.com/questions/10182

comments powered by Disqus