邏輯回歸的 Wald 檢驗
據我了解,邏輯回歸背景下的 Wald 檢驗用於確定某個預測變量是否重要與否。它拒絕相應係數為零的原假設。
該測試包括將係數的值除以標準誤差.
我感到困惑的是也稱為 Z 分數,表示給定觀察值符合正態分佈(均值為零)的可能性。
通過最大似然估計(MLE) 找到邏輯回歸(以及任何 GLM)中的係數和截距的估計值。這些估計值在參數上用帽子表示,例如. 我們感興趣的參數表示為這通常為 0,因為我們要測試係數是否不同於 0。從 MLE 的漸近理論,我們知道和將近似正態分佈,均值為 0(詳細信息可以在任何數理統計書籍中找到,例如 Larry Wasserman 的All of statistics)。回想一下,標準誤差只不過是統計數據的標準差(Sokal 和 Rohlf 在他們的書Biometry中寫道:“統計數據是許多計算或估計的統計量中的任何一個”,例如平均值、中位數、標準差、相關係數、回歸係數, …)。用均值 0 和標準差劃分正態分佈通過其標準差將產生均值為 0 和標準差為 1 的標準正態分佈。 Wald 統計量定義為(例如 Wasserman (2006): All of Statistics , pages 153, 214-215):
或者
第二種形式源於標準正態分佈的平方是- 自由度為 1 的分佈(兩個平方標準正態分佈之和為- 2 個自由度的分佈,依此類推)。 因為感興趣的參數通常為0(即),Wald 統計量簡化為
這就是您所描述的:係數的估計值除以其標準誤差。
什麼時候是當一個使用的價值?
之間的選擇-值或-值取決於如何計算係數的標準誤差。因為 Wald 統計量作為標準正態分佈是漸近分佈的,所以我們可以使用- 分數來計算-價值。當我們除了係數之外,還必須估計殘差方差時,a-value 用於代替-價值。在普通最小二乘法(OLS,正態線性回歸)中,係數的方差-協方差矩陣為在哪裡是殘差的方差(這是未知的,必須從數據中估計)和是設計矩陣。**在 OLS 中,係數的標準誤差是方差-協方差矩陣的對角元素的平方根。**因為我們不知道,我們必須用它的估計來替換它, 所以:. 這就是重點:因為我們必須估計殘差的方差來計算係數的標準誤差,所以我們需要使用-價值和-分配。
**在邏輯(和泊松)回歸中,殘差的方差與均值有關。**如果, 均值為方差是所以方差和均值是相關的。**在邏輯回歸和泊松回歸中,但在高斯誤差回歸中,我們知道預期方差,不必單獨估計。**色散參數表示我們的方差是否大於或小於預期的方差。如果這意味著我們觀察到預期的方差量,而意味著我們的方差小於預期的方差(稱為欠離散)和意味著我們有超出預期的額外方差(稱為過度離散)。邏輯和泊松回歸中的離散參數固定為 1,這意味著我們可以使用-分數。色散參數。在其他回歸類型(例如正態線性回歸)中,我們必須估計殘差方差,因此,-value 用於計算-價值觀。在
R
中,看這兩個例子:邏輯回歸
mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") mydata$rank <- factor(mydata$rank) my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial") summary(my.mod) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.989979 1.139951 -3.500 0.000465 *** gre 0.002264 0.001094 2.070 0.038465 * gpa 0.804038 0.331819 2.423 0.015388 * rank2 -0.675443 0.316490 -2.134 0.032829 * rank3 -1.340204 0.345306 -3.881 0.000104 *** rank4 -1.551464 0.417832 -3.713 0.000205 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1)
請注意,色散參數固定為 1,因此,我們得到-價值觀。
正態線性回歸 (OLS)
summary(lm(Fertility~., data=swiss)) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 66.91518 10.70604 6.250 1.91e-07 *** Agriculture -0.17211 0.07030 -2.448 0.01873 * Examination -0.25801 0.25388 -1.016 0.31546 Education -0.87094 0.18303 -4.758 2.43e-05 *** Catholic 0.10412 0.03526 2.953 0.00519 ** Infant.Mortality 1.07705 0.38172 2.822 0.00734 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 7.165 on 41 degrees of freedom
在這裡,我們必須估計殘差(表示為“殘差標準誤差”),因此,我們使用-值而不是-價值觀。當然,在大樣本中,-distribution 近似於正態分佈,差異無關緊要。
另一個相關的帖子可以在這裡找到。