年齡部分作為連續變量，部分作為分類變量

November 10, 2021

我有 150 名 50 歲以上患者的臨床信息數據集。我打算用它做一個邏輯回歸。（有症狀～年齡等）

從50歲到69歲連續給出年齡（50,51,52…68,69）；從 70 歲開始，年齡被分類/分類 (70-74,75-79…95-99,100+)

我在 50-69 歲組中有 83 個，在 70-100+ 組中有 67 個。

如何知道進行的最佳方式：以分類或其他方式轉換連續數據？

您可以估算每個類別的平均值或中位數。這對於 100 歲以上的人來說效果不佳，但我懷疑除非貴國有許多百歲老人，否則將 100 歲歸為 100 不會造成太大傷害。如果你有必要的編程技能，你可以使用從 70-74、75-79 等中抽取的製服來估算每個類別，擬合模型，重複 N 次，看看它有什麼不同。我不建議手動這樣做。

除非別無選擇，否則我不建議對本質上連續的變量進行分類。它浪費信息並導致模型不可信，因為它預測效果在整個類別中保持平坦，然後突然在類別邊界處跳轉到新值。

針對 OP 在評論中添加的信息，即 100+ 類別中有 7%（等於 10），最好考慮如何更明智地進行估算。如果該國公佈這些年齡組的詳細人口統計數據，那麼這將有助於了解實際分佈情況，但我懷疑披露控制會限制高齡人群的詳細信息。儘管年齡的上限未知，但出於實際目的，我們可以假設它是 110。如果我們假設在這部分範圍內的年齡形成一個三角形分佈，下限為 100，上限為 110，眾數為 100，則估計平均值為 103.3，因此我們可以將其用作 100 歲以上組中年齡的估算值。

引用自：https://stats.stackexchange.com/questions/551726

comments powered by Disqus

年齡部分作為連續變量，部分作為分類變量

相關問答

我們真的在線性回歸的第一步中取隨機線嗎？

為什麼指數族在統計學中如此重要？

可以使用多項式邏輯回歸學習任何數據嗎

為什麼不鼓勵使用高階多項式進行回歸？

在訓練數據中添加噪聲如何等同於正則化？

為什麼多重共線性與相關性不同？