Multiple-Regression

預測多個因變量的方法

  • November 9, 2011

我有一種情況觀察,每個都有自變量和因變量。我想建立一個模型或一系列模型來獲得預測新觀察的因變量。

一種方法是構建多個模型,每個模型預測一個因變量。另一種方法是建立一個模型來一次性預測所有因變量(多元回歸或PLS等)。

我的問題是:同時考慮多個 DV 是否會導致更強大/準確/可靠的模型?鑑於一些事實因變量可能相互關聯,這一事實是否會阻礙或幫助單一模型方法?有沒有我可以在這個主題上查找的參考資料?

您需要檢查因變量之間的相關性(編輯:@BilalBarakat 的答案是正確的,殘差在這裡很重要)。如果全部或部分是獨立的,您可以對每一個運行單獨的分析。如果它們不是獨立的,或者不是獨立的,您可以運行多變量分析。這將最大限度地提高您的能力,同時將 I 型錯誤率保持在您的 alpha 級別。

但是,您應該知道,這不會使您的分析更加準確/穩健。這與您的模型是否比空模型更好地預測數據是一個不同的問題。事實上,發生了這麼多事情,除非你有很多數據,否則你很可能會用一個新樣本得到非常不同的參數估計值。甚至有可能測試版上的標誌會翻轉。很大程度上取決於 p 和 q 的大小及其相關矩陣的性質,但穩健性所需的數據量可能很大。請記住,儘管許多人使用“重要”和“可靠”作為同義詞,但實際上並非如此。知道一個變量不獨立於另一個變量是一回事,但另一件事完全是在您的樣本中指定該關係的性質,因為它在總體中。進行兩次研究並找到兩次均顯著的預測變量可能很容易,但參數估計值差異很大以具有理論上的意義。

此外,除非您正在進行結構方程建模,否則您無法很好地結合您關於變量的理論知識。也就是說,像 MANOVA 這樣的技術往往是原始的經驗性的。

另一種方法是利用您對手頭問題的了解。例如,如果您對同一構造有多個不同的度量(您可以通過因子分析檢查這一點),您可以將它們組合起來。這可以通過將它們轉換為 z 分數並對它們進行平均來完成。也可以利用其他相關來源的知識(例如,共同原因或調解)。有些人對如此重視領域知識感到不舒服,我承認這是一個哲學問題,但我認為要求分析完成所有工作並假設這是最好的答案可能是錯誤的。

作為參考,任何好的多元教科書都應該討論這些問題。Tabachnick 和 Fidell 被認為是對這一主題的簡單而實用的處理。

引用自:https://stats.stackexchange.com/questions/18151

comments powered by Disqus