Correlation
當關聯最強的預測變量是二元時如何開始構建回歸模型
我的數據集包含三個變量的 365 個觀察值,
pm
即temp
和rain
。現在我想檢查pm
響應其他兩個變量變化的行為。我的變量是:
pm10
= 響應(依賴)temp
= 預測器(獨立)rain
= 預測器(獨立)以下是我的數據的相關矩陣:
> cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000
問題是在我研究回歸模型的構建時,有人寫道,加法是從與響應變量相關性最高的變量開始的。在我的數據集中
rain
,與 高度相關pm
(與 相比temp
),但同時它是一個虛擬變量(rain=1,no rain=0),所以我現在知道應該從哪裡開始。我附上了兩張帶有問題的圖片:第一張是數據的散點圖,第二張是pm10
vs.的散點圖rain
,我也無法解釋pm10
vs.的散點圖rain
。有人可以幫助我如何開始嗎?
許多人認為您應該使用某種策略,例如從關聯度最高的變量開始,然後依次添加其他變量,直到其中一個變量不顯著為止。但是,沒有任何邏輯可以強制採用這種方法。此外,這是一種“貪婪”變量選擇/搜索策略(參見我的答案:自動模型選擇算法)。 你不必這樣做,真的,你不應該這樣做。如果你想知道
pm
, 和temp
和之間的關係rain
,只需擬合包含所有三個變量的多元回歸模型。您仍然需要評估模型以確定它是否合理並滿足假設,但僅此而已。如果你想檢驗一些先驗假設,你可以用模型來做。如果您想評估模型的樣本外預測準確性,您可以通過交叉驗證來做到這一點。您也不必真正擔心多重共線性。
temp
和之間的相關性在您的相關矩陣rain
中列出。0.044
這是一個非常低的相關性,不應該引起任何問題。