R
年齡部分作為連續變量,部分作為分類變量
我有 150 名 50 歲以上患者的臨床信息數據集。我打算用它做一個邏輯回歸。(有症狀~年齡等)
從50歲到69歲連續給出年齡(50,51,52…68,69);從 70 歲開始,年齡被分類/分類 (70-74,75-79…95-99,100+)
我在 50-69 歲組中有 83 個,在 70-100+ 組中有 67 個。
如何知道進行的最佳方式:以分類或其他方式轉換連續數據?
您可以估算每個類別的平均值或中位數。這對於 100 歲以上的人來說效果不佳,但我懷疑除非貴國有許多百歲老人,否則將 100 歲歸為 100 不會造成太大傷害。如果你有必要的編程技能,你可以使用從 70-74、75-79 等中抽取的製服來估算每個類別,擬合模型,重複 N 次,看看它有什麼不同。我不建議手動這樣做。
除非別無選擇,否則我不建議對本質上連續的變量進行分類。它浪費信息並導致模型不可信,因為它預測效果在整個類別中保持平坦,然後突然在類別邊界處跳轉到新值。
針對 OP 在評論中添加的信息,即 100+ 類別中有 7%(等於 10),最好考慮如何更明智地進行估算。如果該國公佈這些年齡組的詳細人口統計數據,那麼這將有助於了解實際分佈情況,但我懷疑披露控制會限制高齡人群的詳細信息。儘管年齡的上限未知,但出於實際目的,我們可以假設它是 110。如果我們假設在這部分範圍內的年齡形成一個三角形分佈,下限為 100,上限為 110,眾數為 100,則估計平均值為 103.3,因此我們可以將其用作 100 歲以上組中年齡的估算值。