Logistic

處理“不知道/拒絕”級別的分類變量

  • April 16, 2011

我正在使用邏輯回歸對糖尿病預測進行建模。使用的數據集是疾病控制中心 (CDC) 的 行為風險因素監測系統 (BRFSS )。自變量之一是高血壓。它分為以下級別“是”、“否”、“不知道/拒絕”。我應該在構建模型時刪除那些帶有“不知道/拒絕”的行嗎?從模型中保留或刪除這些行有什麼區別?

在分析最新的全國醫院出院調查數據時,我只是想知道完全相同的問題。一些變量具有大量缺失值,例如婚姻狀況和程序類型。這個問題引起了我的注意,因為這些類別在我運行的大多數邏輯回歸分析中都顯示出強烈(且顯著)的影響。

人們傾向於想知道為什麼給出了一個缺失的代碼。例如,在婚姻狀況的情況下,未能提供這些信息可能與社會經濟地位或疾病類型等重要因素有關,這似乎是合理的。對於您的高血壓,我們應該問為什麼不知道或拒絕該值?這可能與機構的做法有關(可能反映了寬鬆的程序),甚至與個人(例如宗教信仰)有關。這些特徵反過來可能與糖尿病有關。因此,按照您的做法繼續似乎是謹慎的做法,而不是將這些值編碼為缺失(從而將它們完全排除在分析之外)或試圖估算這些值(這有效地掩蓋了它們提供的信息並可能使結果產生偏差)。真的不難做到:您只需確保該變量被視為分類變量,您將在回歸輸出中再獲得一個係數。此外,我懷疑 BRFSS 數據集足夠大,您不必擔心功率問題。

引用自:https://stats.stackexchange.com/questions/9614

comments powered by Disqus