在邏輯回歸中縮放解釋變量時結果的不變性,有證據嗎?
線性回歸有一個標準結果,回歸係數由下式給出
$$ \mathbf{\beta}=(\mathbf{X^T X})^{-1}\mathbf{X^T y} $$
要么
$ (\mathbf{X^T X})\mathbf{\beta}=\mathbf{X^T y} \tag{2}\label{eq2} $
縮放解釋變量不會影響預測。我試圖用代數方式證明這一點,如下所示。
響應通過矩陣方程與解釋變量相關 $ \mathbf{y}=\mathbf{X \beta} \tag{3}\label{eq3} $
$ \mathbf{X} $ 是一個 $ n \times (p+1) $ 對 p 個解釋變量的 n 個觀測值矩陣。第一列 $ \mathbf{X} $ 是一列。
用 a 縮放解釋變量 $ (p+1) \times (p+1) $ 對角矩陣 $ \mathbf{D} $ ,其條目是比例因子 $ \mathbf{X^s} = \mathbf{XD} \tag{4}\label{eq4} $
$ \mathbf{X^s} $ 和 $ \mathbf{\beta^s} $ 滿足 $ \eqref{eq2} $ :
$$ (\mathbf{D^TX^T XD})\mathbf{\beta^s} =\mathbf{D^TX^T y} $$
所以
$$ \mathbf{X^T XD}\mathbf{\beta^s} =\mathbf{X^T y} $$
$$ \Rightarrow \mathbf{D \beta^s} = (\mathbf{X^T X)^{-1}}\mathbf{X^T y}=\mathbf{\beta} $$
$ \Rightarrow \mathbf{\beta^s}=\mathbf{D}^{-1}\mathbf{\beta} \tag{5}\label{eq5} $
這意味著如果解釋變量按比例縮放 $ d_i $ 那麼回歸係數 $ \beta_i $ 被縮放 $ 1/d_i $ 並且縮放的影響抵消了,即考慮基於縮放值的預測,並使用 $ \eqref{eq4},\eqref{eq5},\eqref{eq3} $
$$ \mathbf{y^s}=\mathbf{X^s \beta^s} = \mathbf{X D D^{-1}\beta}=\mathbf{X \beta}=\mathbf{y} $$ 正如預期的那樣。
現在的問題。
對於沒有任何正則化的邏輯回歸,建議通過使用和不使用縮放進行回歸,可以看到相同的效果
fit <- glm(vs ~ mpg, data=mtcars, family=binomial) print(fit) Coefficients: (Intercept) mpg -8.8331 0.4304
mtcars$mpg <- mtcars$mpg * 10 fit <- glm(vs ~ mpg, data=mtcars, family=binomial) print(fit) Coefficients: (Intercept) mpg -8.83307 0.04304
當變量 mpg 按比例放大 10 時,對應的係數按比例縮小 10。
- 對於邏輯回歸,如何以代數方式證明(或證明)這種縮放屬性?
我發現了一個與使用正則化時對 AUC 的影響有關的類似問題。
- 在沒有正則化的情況下,在邏輯回歸中縮放解釋變量有什麼意義嗎?
這是一個啟發式的想法:
邏輯回歸模型的可能性是 $$ \ell(\beta|y) \propto \prod_i\left(\frac{\exp(x_i'\beta)}{1+\exp(x_i'\beta)}\right)^{y_i}\left(\frac{1}{1+\exp(x_i'\beta)}\right)^{1-y_i} $$ 並且 MLE 是該可能性的最大參數。當您縮放回歸量時,您還需要相應地縮放係數以實現原始最大似然。