Reliability

Joel Spolsky 的“Hunting of the Snark”發布了有效的統計內容分析嗎?

  • August 2, 2012

如果您最近一直在閱讀社區公告,您可能已經看過StackExchange 網絡首席執行官Joel Spolsky 在 StackExchange 官方博客上的一篇文章The Hunting of the Snark 。他討論了對 SE 評論樣本進行的統計分析,以從外部用戶的角度評估他們的“友好度”。這些評論是從 StackOverflow 中隨機抽取的,內容分析師是亞馬遜 Mechanical Turk 社區的成員,這是一個工作市場,將公司與以負擔得起的費用完成小型、短期任務的工人聯繫起來。

不久前,我還是一名政治學研究生,我上的一門課是統計內容分析。這門課的最後一個項目,實際上是其全部目的,是對《紐約時報》的戰爭報導進行詳細分析,以測試美國人對戰爭期間新聞報導所做的許多假設是否準確(劇透:證據表明他們是不是)。這個項目很大而且很有趣,但到目前為止,它最痛苦的部分是“培訓和可靠性測試階段”,它發生在我們進行全面分析之前。它有兩個目的(有關詳細說明,請參閱鏈接論文的第 9 頁,以及內容分析統計文獻中對編碼器間可靠性標準的參考):

  1. 確認所有編碼人員,即內容的讀者,都接受過相同定性定義的培訓。在 Joel 的分析中,這意味著每個人都會確切地知道該項目是如何定義“友好”和“不友好”的。
  2. 確認所有編碼人員都可靠地解釋了這些規則,即我們對樣本進行抽樣,分析子集,然後統計證明我們在定性評估上的成對相關性非常相似。

可靠性測試很痛苦,因為我們不得不做三四次。在 -1- 被鎖定並且 -2- 顯示出足夠高的成對相關性之前,我們對全面分析的結果是值得懷疑的。它們無法被證明有效或無效。最重要的是,我們必須在最終樣本集之前進行可靠性試點測試。

我的問題是:Joel 的統計分析缺乏試點可靠性測試,也沒有建立任何“友好”的操作定義。最終數據是否足夠可靠,足以說明他的結果的統計有效性?

從一個角度來看,請考慮這本關於編碼器間可靠性和一致操作定義價值的入門書。從同一來源的更深處,您可以閱讀有關試點可靠性測試的信息(列表中的第 5 項)。

根據 Andy W. 在他的回答中的建議,我正在嘗試使用 R 中的這個命令系列(在計算新統計數據時更新)計算數據集的各種可靠性統計數據,這些數據可在此處獲得。

描述性統計在這裡

百分比一致性 (公差 = 0):0.0143

百分比一致性(公差 = 1):11.8

Krippendorff的 alpha: 0.1529467

我還在另一個問題中嘗試了針對此數據的項目響應模型。

百分比一致性(公差 = 0):0.0143

百分比一致性(公差 = 1):11.8

Krippendorff 的 alpha:0.1529467

這些一致性度量表明實際上沒有明確的一致性——每個編碼員都有自己的內部分界點來判斷評論是“友好”還是“不友好”。

如果我們假設三個類別是有序的,即:不友好 < 中立 < 友好,我們還可以計算類內相關性作為另一種一致性度量。在 1000 條評論的隨機樣本中,ICC (2,1) 為 0.28,ICC (2,k) 為 0.88。這意味著,如果您只選擇 20 位評估者中的一位,結果將非常不可靠(0.28),如果您取 20 位評估者的平均值,結果是可靠的(0.88)。採用三個隨機評分者的不同組合,平均信度在 0.50 到 0.60 之間,仍然會被認為太低。

兩個編碼器之間的平均雙變量相關性為 0.34,這也是相當低的。

如果這些一致性度量被視為編碼員的質量度量(他們實際上應該表現出良好的一致性),那麼答案是:他們不是優秀的編碼員,應該接受更好的培訓。如果這被視為“隨機人之間的自發協議有多好”的衡量標準,那麼答案也是:不是很高。作為基準,身體吸引力評級的平均相關性約為 0.47 - 0.71 [1]

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., & Smoot, M. (2000)。美的格言還是神話?元分析和理論綜述。心理公報,126, 390–423。doi:10.1037/0033-2909.126.3.390

引用自:https://stats.stackexchange.com/questions/33566

comments powered by Disqus