Regression

整數數據:分類還是連續?

  • February 12, 2017

我想知道整數預測器數據是否應該被視為分類(因此需要編碼)或連續的。例如,如果給定預測變量的範圍X是 1 到 230 之間的所有整數,我可以將其視為連續變量,還是應該對其進行編碼以獲得 230 個(或者可能是 229 個)新的虛擬變量?分析的最終目標是執行回歸或分類。

一般來說,兩者都不合適。整數是離散的,不是連續的,但是將它們視為名義類別會丟棄大部分信息,甚至將它們視為序數可能會丟失很多。

在某些情況下,一種或另一種可能沒問題,但將它們按原樣處理幾乎總是更好 - 例如,如果數據是計數,則使用適合計數的分析

例如,假設您想對計數數據執行回歸;有許多計數回歸模型,包括(但不限於)泊松、二項式和負二項式回歸。


在整數 IV(預測器)的情況下,不需要對整數做任何事情,就像對某些連續預測器做任何事情一樣——至少不是基於它們是整數。

在整數預測變量和連續預測變量的情況下,關鍵是您對預測變量如何與響應相關的理解(無論是從理論、先前的研究還是其他方式),而不是它們是整數的事實。

引用自:https://stats.stackexchange.com/questions/261396

comments powered by Disqus