Regression

如何計算我的線性回歸與已知理論線是否存在統計顯著差異?

  • January 21, 2019

我有一些數據沿著大致線性的線擬合:

在此處輸入圖像描述

當我對這些值進行線性回歸時,我得到一個線性方程:

$$ y = 0.997x-0.0136 $$

在理想世界中,方程應該是 $ y = x $ .

顯然,我的線性值接近那個理想值,但並不完全如此。我的問題是,我怎樣才能確定這個結果是否具有統計意義?

0.997 的值是否與1顯著不同?-0.01與 0有*顯著差異嗎?*或者它們在統計上是否相同,我可以得出結論 $ y=x $ 有一些合理的置信水平?

我可以使用什麼好的統計測試?

謝謝

這種情況可以通過嵌套模型的標準 F 檢驗來處理。由於您想針對具有固定參數的空模型測試這兩個參數,因此您的假設是:

$$ H_0: \boldsymbol{\beta} = \begin{bmatrix} 0 \ 1 \end{bmatrix} \quad \quad \quad H_A: \boldsymbol{\beta} \neq \begin{bmatrix} 0 \ 1 \end{bmatrix} . $$

F 檢驗涉及擬合兩個模型並比較它們的殘差平方和,即:

$$ SSE_0 = \sum_{i=1}^n (y_i-x_i)^2 \quad \quad \quad SSE_A = \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 $$

檢驗統計量為:

$$ F \equiv F(\mathbf{y}, \mathbf{x}) = \frac{n-2}{2} \cdot \frac{SSE_0 - SSE_A}{SSE_A}. $$

對應的 p 值為:

$$ p \equiv p(\mathbf{y}, \mathbf{x}) = \int \limits_{F(\mathbf{y}, \mathbf{x}) }^\infty \text{F-Dist}(r | 2, n-2) \ dr. $$


**R 中的實現:**假設您的數據位於一個名為andDATA的變量的數據框中。可以使用以下代碼手動執行 F 檢驗。在我使用的模擬模擬數據中,您可以看到估計的係數接近原假設中的係數,並且檢驗的 p 值顯示沒有顯著證據證明可以證偽原假設,即真正的回歸函數是身份功能。y``x

#Generate mock data (you can substitute your data if you prefer)
set.seed(12345);
n    <- 1000;
x    <- rnorm(n, mean = 0, sd = 5);
e    <- rnorm(n, mean = 0, sd = 2/sqrt(1+abs(x)));
y    <- x + e;
DATA <- data.frame(y = y, x = x);

#Fit initial regression model
MODEL <- lm(y ~ x, data = DATA);

#Calculate test statistic
SSE0   <- sum((DATA$y-DATA$x)^2);
SSEA   <- sum(MODEL$residuals^2);
F_STAT <- ((n-2)/2)*((SSE0 - SSEA)/SSEA);
P_VAL  <- pf(q = F_STAT, df1 = 2, df2 = n-2, lower.tail = FALSE);

#Plot the data and show test outcome
plot(DATA$x, DATA$y,
    main = 'All Residuals',
    sub  = paste0('(Test against identity function - F-Stat = ',
           sprintf("%.4f", F_STAT), ', p-value = ', sprintf("%.4f", P_VAL), ')'),
    xlab = 'Dataset #1 Normalized residuals',
    ylab = 'Dataset #2 Normalized residuals');
abline(lm(y ~ x, DATA), col = 'red', lty = 2, lwd = 2);

summary輸出和此plot數據如下所示:

summary(MODEL);

Call:
lm(formula = y ~ x, data = DATA)

Residuals:
   Min      1Q  Median      3Q     Max 
-4.8276 -0.6742  0.0043  0.6703  5.1462 

Coefficients:
           Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.02784    0.03552  -0.784    0.433    
x            1.00507    0.00711 141.370   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.122 on 998 degrees of freedom
Multiple R-squared:  0.9524,    Adjusted R-squared:  0.9524 
F-statistic: 1.999e+04 on 1 and 998 DF,  p-value: < 2.2e-16

F_STAT;
[1] 0.5370824

P_VAL;
[1] 0.5846198

在此處輸入圖像描述

引用自:https://stats.stackexchange.com/questions/388448

comments powered by Disqus