Correlation

當關聯最強的預測變量是二元時如何開始構建回歸模型

  • November 23, 2016

我的數據集包含三個變量的 365 個觀察值,pmtemprain。現在我想檢查pm響應其他兩個變量變化的行為。我的變量是:

  • pm10= 響應(依賴)
  • temp= 預測器(獨立)
  • rain= 預測器(獨立)

以下是我的數據的相關矩陣:

> cor(air.pollution)
              pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

問題是在我研究回歸模型的構建時,有人寫道,加法是從與響應變量相關性最高的變量開始的。在我的數據集中rain,與 高度相關pm(與 相比temp),但同時它是一個虛擬變量(rain=1,no rain=0),所以我現在知道應該從哪裡開始。我附上了兩張帶有問題的圖片:第一張是數據的散點圖,第二張是pm10vs.的散點圖rain,我也無法解釋pm10vs.的散點圖rain。有人可以幫助我如何開始嗎?

這是我的數據的散點圖

pm10 vs rain的散點圖

許多人認為您應該使用某種策略,例如從關聯度最高的變量開始,然後依次添加其他變量,直到其中一個變量不顯著為止。但是,沒有任何邏輯可以強制採用這種方法。此外,這是一種“貪婪”變量選擇/搜索策略(參見我的答案:自動模型選擇算法)。 你不必這樣做,真的,你不應該這樣做。如果你想知道pm, 和temp和之間的關係rain,只需擬合包含所有三個變量的多元回歸模型。您仍然需要評估模型以確定它是否合理並滿足假設,但僅此而已。如果你想檢驗一些先驗假設,你可以用模型來做。如果您想評估模型的樣本外預測準確性,您可以通過交叉驗證來做到這一點。

您也不必真正擔心多重共線性。temp和之間的相關性在您的相關矩陣rain中列出。0.044這是一個非常低的相關性,不應該引起任何問題。

引用自:https://stats.stackexchange.com/questions/247510

comments powered by Disqus