Hypothesis-Testing

當其中一個可能具有二次項和三次項時,我應該如何對解釋變量之間的交互進行建模?

  • November 21, 2014

我真誠地希望我已經以可以明確回答的方式來表達這個問題 - 如果沒有,請告訴我,我會再試一次!我還應該注意,我將使用 R 進行這些分析。

plant performance (Ys)我懷疑有幾個測量值受到我施加的四種治療的影響flower thinning (X1), fertilization (X2), leaf clipping (X3)——和biased flower thinning (X4)。對於所有可能的 Y,N 至少為 242,因此我的樣本量很大。所有地塊要么進行間伐,要么不進行間伐,但每個地塊也進行了其他三種處理中的一種(並且只有一種)(或者沒有——也有控制地塊)。這種設計的想法是測試其他三種治療方法是否能夠“掩蓋”或“增強”變薄的效果。因此,按照設計,後三種處理(X2-X4)不能相互相互作用,因為它們沒有交叉,但它們都可以與花朵稀疏相互作用——而且它們可能確實如此。

我的明確假設是 1)開花疏花將是顯著的,並且 2)開花疏X1*X2, X1*X3, and X1*X4,花和其他三種處理之間的相互作用項也將是顯著的。也就是說,疏花應該很重要,但重要的方式應該會因其他三種處理方法的作用而顯著改變。

我想將所有這些信息包含在混合模型中:

Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)

但是有一個問題:我有充分的理由相信細化對 Y 的影響是非線性的。它們可能是二次的,但在某些情況下甚至可能是三次的。這是因為細化對性能的影響很可能在更高的細化水平上增加得更快。如果我嘗試通過為 X1 添加二次項和三次項來通過上面的方程對這種非線性關係進行建模,那麼我不確定如何對交互項進行建模——我是否應該包括 X1、(X1)^ 的所有可能組合2, 和 (X1)^3 * X2, X3 和 X4?因為這似乎有很多參數要嘗試估計,即使我有很多數據點,我也不確定如何解釋我會得到的結果。也就是說,我沒有生物學上的理由認為這將是一種不謹慎的方式來模擬這種情況。

所以,對於如何解決這個問題,我有三個想法:

  1. 首先擬合一個較小的模型,例如Y ~ X1 + X1^2 + X^3 + Random effects,其唯一目的是確定細化和 Y 之間的關係是線性、二次還是三次,然後通過平方根或立方根變換細化以適當地線性化關係。從那裡,交互項可以像上面那樣用轉換後的變量建模。
  2. 假設顯著的交互作用(如果發生)僅影響 X1 項中的一項(即僅線性、二次或三次項),並相應地對交互作用進行建模。我什至不確定這種方法是否有意義。
  3. 只需將“完整模型”與細化項與上面討論的其他處理之間的每個可能的交互項擬合即可。然後,刪除無關緊要的交互項並使用圖表和其他技術來解釋結果。

鑑於我對假設檢驗而不是模型選擇感興趣,這些方法中的哪一種(如果有的話)最有意義,為什麼?特別是,如果上面的#1沒有意義,那是為什麼呢?我已經閱讀了這篇文章這篇文章,並試圖消化它們對我的意義,但任何進一步閱讀的資源也將不勝感激!

這些方法都不能正常工作。方法 3. 接近了,但後來你說你會刪掉無關緊要的條款。這是有問題的,因為共線性使您無法找到要刪除的項,並且如果您想保留 I 類錯誤,這會給您在假設檢驗中提供錯誤的自由度。

根據您問題中的有效樣本量和信噪比,我建議使用所有產品和主要效應項擬合模型,並使用繪圖和“塊測試”(相關術語的多個 df 測試,即整體交互作用檢驗、非線性交互作用檢驗、包括主效應+交互作用在內的整體效應檢驗等)。Rrms包使標准單變量模型和縱向模型在以下情況下很容易做到這一點是多元正態。例子:

# Fit a model with splines in x1 and x2 and tensor spline interaction surface
# for the two. Model is additive and linear in x3.
# Note that splines typically fit better than ordinary polynomials
f <- ols(y ~ rcs(x1, 4) * rcs(x2, 4) + x3)
anova(f)   # get all meaningful hypothesis tests that can be inferred
          # from the model formula
bplot(Predict(f, x1, x2))    # show joint effects
plot(Predict(f, x1, x2=3))   # vary x1 and hold x2 constant

當您看到該anova表時,您會看到標記的線All Interactions,用於整個模型測試所有交互項的綜合影響。對於單個預測器,這僅在預測器與多個變量交互時才有用。該print方法中有一個選項anova.rms可以通過表中的每一行準確顯示正在針對零進行測試的參數。所有這些都適用於分類和連續預測變量的混合。

如果您想使用普通多項式,請使用pol而不是rcs.

不幸的是,我還沒有實現混合效果模型。

引用自:https://stats.stackexchange.com/questions/124920

comments powered by Disqus