Categorical-Data
從連續數據到分類數據總是錯誤的嗎?
當我閱讀有關如何設置數據的信息時,我經常遇到的一件事是將一些連續數據轉換為分類數據不是一個好主意,因為如果閾值確定不當,您很可能會得出錯誤的結論。
但是,我目前有一些數據(前列腺癌患者的 PSA 值),我認為普遍的共識是,如果你低於 4 歲,你可能沒有,如果你高於你有風險,然後類似超過 10 和 20,你可能擁有它。類似的東西。在這種情況下,將我的連續 PSA 值分類為 0-4、4-10 和 >10 組是否仍然不正確?或者實際上可以說閾值是“確定的”。
您的閾值是否存在明顯的不連續性?
例如,假設您有兩名患者 A 和 B 的值分別為 3.9 和 4.1,另外兩名患者 C 和 D 的值分別為 6.7 和 6.9。A 和 B 之間患癌症的可能性差異是否比 C 和 D 之間的相應差異大得多?
如果是,那麼離散化是有意義的。
如果不是,那麼您的閾值在理解您的數據時可能是有意義的,但它們在統計學意義上並不是“確定的”。不要離散化。相反,請“按原樣”使用您的測試分數,如果您懷疑存在某種非線性,請使用樣條.