Logistic

邏輯回歸的 Wald 檢驗

  • May 26, 2013

據我了解,邏輯回歸背景下的 Wald 檢驗用於確定某個預測變量是否重要與否。它拒絕相應係數為零的原假設。

該測試包括將係數的值除以標準誤差.

我感到困惑的是也稱為 Z 分數,表示給定觀察值符合正態分佈(均值為零)的可能性。

通過最大似然估計(MLE) 找到邏輯回歸(以及任何 GLM)中的係數和截距的估計值。這些估計值在參數上用帽子表示,例如. 我們感興趣的參數表示為這通常為 0,因為我們要測試係數是否不同於 0。從 MLE 的漸近理論,我們知道和將近似正態分佈,均值為 0(詳細信息可以在任何數理統計書籍中找到,例如 Larry Wasserman 的All of statistics)。回想一下,標準誤差只不過是統計數據的標準差(Sokal 和 Rohlf 在他們的書Biometry中寫道:“統計數據是許多計算或估計的統計量中的任何一個”,例如平均值、中位數、標準差、相關係數、回歸係數, …)。用均值 0 和標準差劃分正態分佈通過其標準差將產生均值為 0 和標準差為 1 的標準正態分佈。 Wald 統計量定義為(例如 Wasserman (2006): All of Statistics , pages 153, 214-215):

或者

第二種形式源於標準正態分佈的平方是- 自由度為 1 的分佈(兩個平方標準正態分佈之和為- 2 個自由度的分佈,依此類推)。 因為感興趣的參數通常為0(即),Wald 統計量簡化為

這就是您所描述的:係數的估計值除以其標準誤差。


什麼時候是當一個使用的價值?

之間的選擇-值或-值取決於如何計算係數的標準誤差。因為 Wald 統計量作為標準正態分佈是漸近分佈的,所以我們可以使用- 分數來計算-價值。當我們除了係數之外,還必須估計殘差方差時,a-value 用於代替-價值。在普通最小二乘法(OLS,正態線性回歸)中,係數的方差-協方差矩陣為在哪裡是殘差的方差(這是未知的,必須從數據中估計)和是設計矩陣。**在 OLS 中,係數的標準誤差是方差-協方差矩陣的對角元素的平方根。**因為我們不知道,我們必須用它的估計來替換它, 所以:. 這就是重點:因為我們必須估計殘差的方差來計算係數的標準誤差,所以我們需要使用-價值和-分配。

**在邏輯(和泊松)回歸中,殘差的方差與均值有關。**如果, 均值為方差是所以方差和均值是相關的。**在邏輯回歸和泊松回歸中,但在高斯誤差回歸中,我們知道預期方差,不必單獨估計。**色散參數表示我們的方差是否大於或小於預期的方差。如果這意味著我們觀察到預期的方差量,而意味著我們的方差小於預期的方差(稱為欠離散)和意味著我們有超出預期的額外方差(稱為過度離散)。邏輯和泊松回歸中的離散參數固定為 1,這意味著我們可以使用-分數。色散參數。在其他回歸類型(例如正態線性回歸)中,我們必須估計殘差方差,因此,-value 用於計算-價值觀。在R中,看這兩個例子:

邏輯回歸

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
  ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

請注意,色散參數固定為 1,因此,我們得到-價值觀。


正態線性回歸 (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

在這裡,我們必須估計殘差(表示為“殘差標準誤差”),因此,我們使用-值而不是-價值觀。當然,在大樣本中,-distribution 近似於正態分佈,差異無關緊要。

另一個相關的帖子可以在這裡找到。

引用自:https://stats.stackexchange.com/questions/60074

comments powered by Disqus