Regression

多重共線性和預測性能

  • August 8, 2018

看這個聲明:

“多重共線性不影響預測能力,但個別預測變量對響應變量的影響可能計算錯誤。”

這是矛盾的嗎?由於自變量的參數估計錯誤,這不會影響預測性能嗎?

如果我只關心預測性能而不關心模型的推理性質,我是否必須關心多重共線性?我想一旦我能接受“黑盒”,我就應該使用更強大的“非參數”模型,無論如何都不做任何假設……?

假設您已經在訓練數據集上訓練了一個模型,並且想要預測測試/保留數據集中的一些值。如果訓練數據集和測試數據集中變量之間的協方差不同,則訓練數據集中的多重共線性只會降低測試數據集中的預測性能。如果協方差結構(以及因此的多重共線性)在訓練和測試數據集中都相似,那麼它不會對預測造成問題。由於測試數據集通常是完整數據集的隨機子集,因此假設協方差結構相同通常是合理的。因此,多重共線性通常不是這個目的的問題。

讓我們舉一個簡單的例子。假設您想根據其他一些變量預測一組人的身高:體重、臂長、腿長等。不出所料,您會發現這些變量在您的訓練數據集中都具有很強的相關性。但是,如果您可以假設手臂長度、腿長、體重等在訓練和測試數據集中具有相似的相關性,那麼您可以繼續使用它們來成功預測測試數據集中的人的身高。如果由於某種原因您的測試數據集具有不同的協方差結構(假設它包含一群長臂籃球運動員),那麼您的預測將不會是好的。


至於為什麼多重共線性不是預測問題而是推理問題:讓我們以兩個完全相關的變量x1x2(即r = 1)的極端情況為例。因此,當在 2 個回歸中分別用於預測變量y時,兩者都返回相同的係數值 - 假設兩種情況下的係數值都是 3。

當在多元回歸中同時使用x1x2來預測y時,現在有無限種可能的係數組合同樣有效。例如,x1的係數可以為 3,x2的係數可以為 0。反過來同樣有效:x1的係數可以為 0,x2的係數可以為 3。

從推理的角度來看,這導致了巨大的不確定性,因為每個單獨的參數都受到很差的約束。但重要的是,儘管x1x2在這組假設模型中存在巨大差異,但所有模型都返回相同的y預測。所以從預測的角度來看,所有這些模型都是等價的。如果您只想預測一些新值,您可以選擇這些模型中的任何一個——當然假設x1x2在您的測試數據集中仍然完全相關。

引用自:https://stats.stackexchange.com/questions/361247

comments powered by Disqus