是否有數學證據證明變化與基線值相關
在此處和其他地方的答案中顯示,2 個隨機變量的差異將與基線相關。因此基線不應該是回歸方程變化的預測因子。可以用下面的R代碼檢查:
> N=200 > x1 <- rnorm(N, 50, 10) > x2 <- rnorm(N, 50, 10) > change = x2 - x1 > summary(lm(change ~ x1)) Call: lm(formula = change ~ x1) Residuals: Min 1Q Median 3Q Max -28.3658 -8.5504 -0.3778 7.9728 27.5865 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 50.78524 3.67257 13.83 <0.0000000000000002 *** x1 -1.03594 0.07241 -14.31 <0.0000000000000002 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.93 on 198 degrees of freedom Multiple R-squared: 0.5083, Adjusted R-squared: 0.5058 F-statistic: 204.7 on 1 and 198 DF, p-value: < 0.00000000000000022
x1(基線)和變化之間的圖顯示了反比關係:
然而,在許多研究(尤其是生物醫學)中,基線作為協變量而變化作為結果。這是因為直覺上認為有效干預帶來的變化可能與基線水平相關,也可能不相關。因此,它們保留在回歸方程中。
在這方面我有以下問題:
- 是否有任何數學證據表明變化(隨機的或由有效干預引起的)總是與基線相關?它僅在某些情況下發生還是普遍現象?數據分佈與此有關嗎?
- 此外,保持基線作為變化的一個預測因子會影響其他與基線沒有任何交互作用的預測因子的結果嗎?例如在回歸方程中:
change ~ baseline + age + gender
。在此分析中年齡和性別的結果是否無效?- 如果有生物學原因認為變化可能與基線直接相關(在生物系統中很常見),是否有任何方法可以糾正這種影響?
感謝您的洞察力。
編輯:自從討論響應以來,我可能應該將 x1 和 x2 標記為 y1 和 y2。
關於這個主題的一些鏈接:
- 是否有任何數學證據表明變化(隨機的或由有效干預引起的)總是與基線相關?它僅在某些情況下發生還是普遍現象?數據分佈與此有關嗎?
我們對協方差感興趣 $ X $ 和 $ X-Y $ 在哪裡 $ X $ 和 $ Y $ 可能不是獨立的:
$$ \begin{align*} \text{Cov}(X,X-Y) &=\mathbb{E}[(X)(X-Y)]-\mathbb{E}[X]\mathbb{E}[X-Y] \ &=\mathbb{E}[X^2-XY]-(\mathbb{E}[X])^2 + \mathbb{E}[X]\mathbb{E}[Y] \ &=\mathbb{E}[X^2]-\mathbb{E}[XY]-(\mathbb{E}[X])^2 + \mathbb{E}[X]\mathbb{E}[Y] \ &=\text{Var}(X)-\mathbb{E}[XY] + \mathbb{E}[X]\mathbb{E}[Y] \ &=\text{Var}(X) - \text{Cov}(X,Y) \end{align*} $$
所以是的,這總是一個問題。
- 此外,保持基線作為變化的一個預測因子會影響其他與基線沒有任何交互作用的預測因子的結果嗎?例如在回歸方程中:變化 ~ 基線 + 年齡 + 性別。在此分析中年齡和性別的結果是否無效?
整個分析無效。的估計值
age
是與 的預期關聯,age
同時change
保持basline
不變。也許你可以理解這一點,也許它確實有意義,但你正在擬合一個調用虛假關聯(或扭曲實際關聯)的模型,所以不要這樣做。
- 如果有生物學原因認為變化可能與基線直接相關(在生物系統中很常見),是否有任何方法可以糾正這種影響?
是的,正如你所說,這很常見。擬合一個多級模型(混合效應模型),每個參與者有 2 個時間點(基線和後續),編碼為 -1 和 +1。如果您想考慮不同的處理效果,那麼您也可以擬合隨機斜率。
一種替代方法是 Oldham 的方法,但它也有它的缺點。
參見 Tu 和 Gilthore(2007 年)“重新審視變化與初始值之間的關係:審查和評估” https://pubmed.ncbi.nlm.nih.gov/16526009