Regression

分解連續預測變量有什麼好處?

  • August 31, 2013

我想知道在模型中使用連續預測變量並將其分解(例如,分成五分位數)的價值是什麼。

在我看來,通過對變量進行分箱,我們會丟失信息。

  • 這僅僅是為了我們可以模擬非線性效應嗎?
  • 如果我們保持變量連續並且它不是真正的直線關係,我們是否需要提出某種曲線來最好地擬合數據?

你在這兩個方面都是對的。有關合併連續變量的一長串問題,請參閱此處的Frank Harrell 頁面。如果您使用幾個 bin,您會丟棄預測變量中的大量信息;如果你使用很多,你傾向於在應該是平滑的(如果不是線性的)關係中調整擺動,並使用很多自由度。通常最好使用多項式 ( $ x + x^2 + \ldots $ ) 或樣條曲線(平滑連接的分段多項式)用於預測變量。只有當您期望在切點處響應不連續時(例如某物沸騰的溫度或法定駕駛年齡)以及它們之間的響應平緩時,Binning 才是一個好主意。

價值?——嗯,這是一種無需考慮曲率即可快速簡便地考慮曲率的方法,而且該模型可能足以滿足您的用途。與預測變量的數量相比,當您擁有大量數據時,它往往會正常工作,每個預測變量都分為很多類別;在這種情況下,在每個預測變量範圍內,響應範圍都很小,並且平均響應是精確確定的。

[編輯回應評論:

有時在一個領域中對連續變量使用標準截止值:例如,在醫學中,血壓測量值可能被分類為低、中或高。當您展示或應用模型時,可能有很多充分的理由使用此類截止值。特別是,決策規則通常基於比模型中更少的信息,並且可能需要易於應用。但是,當您擬合模型時,這些截止值並不適用於對預測變量進行分箱。

假設某些反應隨血壓連續變化。如果您在研究中將高血壓組定義為預測因子,那麼您估計的效果是該組中個體特定血壓的平均反應。這不是對一般人群中高血壓患者或另一項研究中高血壓人群的平均反應的估計,除非您採取具體措施來做到這一點。如果像我想像的那樣知道一般人群中的血壓分佈,那麼您最好根據以血壓為模型的模型的預測來計算一般人群中高血壓患者的平均反應連續變量。粗分級使您的模型只能近似泛化。

一般來說,如果您對截止值之間的響應行為有疑問,請先擬合最好的模型,然後用它來回答它們。]

[關於介紹;我認為這是一個紅鯡魚:

(1) 易於演示並不能證明糟糕的建模決策是合理的。(並且在分箱是一個很好的建模決策的情況下,它不需要額外的理由。)這當然是不言而喻的。沒有人建議從模型中提取重要的交互,因為它很難呈現。

(2)無論你適合什麼樣的模型,如果你認為它有助於解釋,你仍然可以用類別來展示它的結果。儘管 …

(3)由於上述原因,您必須小心確保它不會幫助誤解。

(4) 呈現非線性響應實際上並不難。個人觀點,很明顯,&受眾不同;但我從未見過擬合響應值與預測值的圖表僅僅因為它是彎曲的而讓某人感到困惑。交互作用、logits、隨機效應、多重共線性……——這些都很難解釋。]

[@Roland 提出的另一點是預測變量測量的準確性;我認為,他的建議是,當分類不是特別精確時,分類可能是合適的。常識可能表明您不會通過更不精確地重新陳述事物來改善問題,而常識是正確的:MacCallum 等人(2002 年),“關於量化變量二分法的實踐”,心理學方法7, 1,第 17-19 頁。]

引用自:https://stats.stackexchange.com/questions/68834

comments powered by Disqus