Regression

為什麼邏輯回歸可以很好地校準,以及如何破壞它的校準?

  • February 2, 2019

在關於概率校準的 scikit learn 文檔中,他們將邏輯回歸與其他方法進行了比較,並指出隨機森林的校準不如邏輯回歸。

為什麼邏輯回歸得到很好的校準?一個人怎麼會破壞邏輯回歸的校準(這不是一個人想要的——只是作為一種練習)?

儘管這個問題及其第一個答案似乎集中在邏輯回歸模型校準的理論問題上,但問題是:

怎麼會破壞邏輯回歸的校準……?

對於本頁的未來讀者,在實際應用方面值得關注。我們不應該忘記邏輯回歸模型必須明確指定,並且這個問題對於邏輯回歸可能特別麻煩。

首先,如果類成員的對數機率與模型中包含的預測變量不是線性相關,那麼它就不會被很好地校準。Harrell關於二元邏輯回歸的第 10 章用了大約 20 頁的篇幅介紹“模型擬合的評估”,以便在實踐中利用“最大似然估計量的漸近無偏性”,正如@whuber 所說。

其次,模型規範是邏輯回歸中的一個特殊問題,因為它具有固有的遺漏變量偏差,這對於那些具有普通線性回歸背景的人來說可能是令人驚訝的。正如該頁面所說:

即使遺漏變量與包含變量不相關,遺漏變量也會使包含變量的係數產生偏差。

該頁面還對為什麼會出現這種行為進行了有用的解釋,並對相關的、易於分析的概率模型進行了理論解釋。因此,除非您知道已包含與類成員相關的所有預測變量,否則您可能會在實踐中遇到指定錯誤和校準不佳的危險。

關於模型規範,很有可能像隨機森林這樣的基於樹的方法,它不假設整個預測變量值範圍內的線性,並且固有地提供了發現和包括預測變量之間的相互作用的可能性,最終會得到更好的 -校準模型在實踐中優於未充分考慮交互項或非線性的邏輯回歸模型。關於遺漏變量偏差,我不清楚評估類成員概率的任何方法是否可以充分處理該問題。

引用自:https://stats.stackexchange.com/questions/390487

comments powered by Disqus