R

是否有數學證據證明變化與基線值相關

  • July 22, 2020

在此處和其他地方的答案中顯示,2 個隨機變量的差異將與基線相關。因此基線不應該是回歸方程變化的預測因子。可以用下面的R代碼檢查:

> N=200
> x1 <- rnorm(N, 50, 10)
> x2 <- rnorm(N, 50, 10)  
> change = x2 - x1
> summary(lm(change ~ x1))

Call:
lm(formula = change ~ x1)

Residuals:
    Min       1Q   Median       3Q      Max 
-28.3658  -8.5504  -0.3778   7.9728  27.5865 

Coefficients:
           Estimate Std. Error t value            Pr(>|t|)    
(Intercept) 50.78524    3.67257   13.83 <0.0000000000000002 ***
x1          -1.03594    0.07241  -14.31 <0.0000000000000002 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.93 on 198 degrees of freedom
Multiple R-squared:  0.5083,    Adjusted R-squared:  0.5058 
F-statistic: 204.7 on 1 and 198 DF,  p-value: < 0.00000000000000022

x1(基線)和變化之間的圖顯示了反比關係:

在此處輸入圖像描述

然而,在許多研究(尤其是生物醫學)中,基線作為協變量而變化作為結果。這是因為直覺上認為有效干預帶來的變化可能與基線水平相關,也可能不相關。因此,它們保留在回歸方程中。

在這方面我有以下問題:

  1. 是否有任何數學證據表明變化(隨機的或由有效干預引起的)總是與基線相關?它僅在某些情況下發生還是普遍現象?數據分佈與此有關嗎?
  2. 此外,保持基線作為變化的一個預測因子會影響其他與基線沒有任何交互作用的預測因子的結果嗎?例如在回歸方程中:change ~ baseline + age + gender。在此分析中年齡和性別的結果是否無效?
  3. 如果有生物學原因認為變化可能與基線直接相關(在生物系統中很常見),是否有任何方法可以糾正這種影響?

感謝您的洞察力。

編輯:自從討論響應以來,我可能應該將 x1 和 x2 標記為 y1 和 y2。

關於這個主題的一些鏈接:

重複測量方差分析、方差分析和線性混合效應模型之間的差異

更改分數或回歸變量方法 - 我應該回歸超過和或者超過

統計學中最糟糕的(普遍採用的)思想/原則是什麼?

統計學中最糟糕的(普遍採用的)思想/原則是什麼?

更改分數或回歸變量方法 - 我應該回歸超過和或者超過

  1. 是否有任何數學證據表明變化(隨機的或由有效干預引起的)總是與基線相關?它僅在某些情況下發生還是普遍現象?數據分佈與此有關嗎?

我們對協方差感興趣 $ X $ 和 $ X-Y $ 在哪裡 $ X $ 和 $ Y $ 可能不是獨立的:

$$ \begin{align*} \text{Cov}(X,X-Y) &=\mathbb{E}[(X)(X-Y)]-\mathbb{E}[X]\mathbb{E}[X-Y] \ &=\mathbb{E}[X^2-XY]-(\mathbb{E}[X])^2 + \mathbb{E}[X]\mathbb{E}[Y] \ &=\mathbb{E}[X^2]-\mathbb{E}[XY]-(\mathbb{E}[X])^2 + \mathbb{E}[X]\mathbb{E}[Y] \ &=\text{Var}(X)-\mathbb{E}[XY] + \mathbb{E}[X]\mathbb{E}[Y] \ &=\text{Var}(X) - \text{Cov}(X,Y) \end{align*} $$

所以是的,這總是一個問題。

  1. 此外,保持基線作為變化的一個預測因子會影響其他與基線沒有任何交互作用的預測因子的結果嗎?例如在回歸方程中:變化 ~ 基線 + 年齡 + 性別。在此分析中年齡和性別的結果是否無效?

整個分析無效。的估計值age是與 的預期關聯,age同時change保持basline不變。也許你可以理解這一點,也許它確實有意義,但你正在擬合一個調用虛假關聯(或扭曲實際關聯)的模型,所以不要這樣做。

  1. 如果有生物學原因認為變化可能與基線直接相關(在生物系統中很常見),是否有任何方法可以糾正這種影響?

是的,正如你所說,這很常見。擬合一個多級模型(混合效應模型),每個參與者有 2 個時間點(基線和後續),編碼為 -1 和 +1。如果您想考慮不同的處理效果,那麼您也可以擬合隨機斜率。

一種替代方法是 Oldham 的方法,但它也有它的缺點。

參見 Tu 和 Gilthore(2007 年)“重新審視變化與初始值之間的關係:審查和評估” https://pubmed.ncbi.nlm.nih.gov/16526009

引用自:https://stats.stackexchange.com/questions/478310

comments powered by Disqus