Correlation

關於在匯總調查數據中使用加權相關性

  • June 13, 2011

我正在分析合併在一起的兩項調查的數據:

  • 2005-06 年和 2007-08 年學校員工調查
  • 2005-06 年至 2008-09 年的學生調查

對於這兩個數據集,我有來自 3 個不同學區的觀察結果(在學生或教職員工層面),每個學區每年都有各自不同學區內的代表性樣本。

為了進行分析,我將學生數據合併為兩個兩年期(2005-07 和 2007-09)。然後我’ddply'-ed每個數據集以獲得根據截止值回答問題的員工或學生的百分比(例如,他們是否回答肯定,“同意”,或者學生是否標記他們使用酒精,等等。)。因此,當我將教職員工和學生級別的數據集合併在一起時,學校是分析單位,我每 2 年的時間段內每所學校只有 1 個觀察值(假設學校在給定的時間段內沒有丟失數據)。

我的目標是估計員工和學生反應之間的關聯。到目前為止,我的計劃是分別獲得每個​​學區的所有變量(因為它們都是代表百分比的連續響應)之間的 Pearson 相關係數(因為這消除了該數據集中其他學區的普遍性假設) . 為此,無論如何,我都會對兩年內的地區數據進行平均,以便每所學校僅獲得一次觀察結果。

問題:

  1. 這是一個合適的分析計劃嗎?我是否可以使用其他方法來提供更好的推理或能力?
  2. 如果我的計劃合適,我是否應該根據學校的入學率獲得加權相關性(因為小學校比大學校多,這會對相關係數產生不成比例的影響)?

我已經向數據管理員詢問了這個問題,他提到決定是否需要對我的數據進行加權的主要因素是我是否認為學校規模會影響相關程度,以及我的解釋是在學生層面還是在學校層面。我認為我的解釋將是在學校層面(例如,“這樣回答的員工比例與這樣回答的學生比例相關的學校……”)。

我想現在這已經是歷史了,但以防萬一……

1)是的,這似乎是合適的。您的研究問題必須是“學校的教師態度/行為是否與該學校的學生態度/行為相關?” 如果這是您的問題,則學校是合適的分析單位(無論如何,無法將個別教師與學生匹配)。

我只想對皮爾遜相關係數的使用添加警告,與分析單位或抽樣策略的問題無關。相關係數不能拾取非線性關係,可能會誤導解釋,容易被一些異常值扭曲,並且基於它的經典推斷取決於正態性(它不會完全符合您的比例數據,儘管它可能是一個合理的近似值)。至少我會仔細使用圖形方法來檢查這是一種明智的方法,並且沒有更好的方法來推斷兩個變量之間的關係。

2)我認為您不需要加權數據,但我肯定會嘗試(並希望它不會改變結果)。但我會根據你在學校的樣本量來衡量,而不是根據入學人數來衡量。原因將是關於估計,而不是您的分析單位或任何“加權人口”的需要。根據您的有限樣本,您只能估計每所學校的真實教師和學生的反應。如果您有較大樣本的學校,您對您的估計更有信心,因此如果在擬合您的相關性或線性回歸時更認真地對待它們會很好。

引用自:https://stats.stackexchange.com/questions/11883

comments powered by Disqus