Categorical-Data

從連續數據到分類數據總是錯誤的嗎？

March 13, 2019

當我閱讀有關如何設置數據的信息時，我經常遇到的一件事是將一些連續數據轉換為分類數據不是一個好主意，因為如果閾值確定不當，您很可能會得出錯誤的結論。

但是，我目前有一些數據（前列腺癌患者的 PSA 值），我認為普遍的共識是，如果你低於 4 歲，你可能沒有，如果你高於你有風險，然後類似超過 10 和 20，你可能擁有它。類似的東西。在這種情況下，將我的連續 PSA 值分類為 0-4、4-10 和 >10 組是否仍然不正確？或者實際上可以說閾值是“確定的”。

您的閾值是否存在明顯的不連續性？

例如，假設您有兩名患者 A 和 B 的值分別為 3.9 和 4.1，另外兩名患者 C 和 D 的值分別為 6.7 和 6.9。A 和 B 之間患癌症的可能性差異是否比 C 和 D 之間的相應差異大得多？

如果是，那麼離散化是有意義的。

如果不是，那麼您的閾值在理解您的數據時可能是有意義的，但它們在統計學意義上並不是“確定的”。不要離散化。相反，請“按原樣”使用您的測試分數，如果您懷疑存在某種非線性，請使用樣條.

這是非常推薦的。

引用自：https://stats.stackexchange.com/questions/397258

comments powered by Disqus

相關問答

Mathematical-Statistics

離散變量和連續變量。定義是什麼？

September 13, 2021

Random-Variable

為什麼兩個絕對連續的隨機變量之和不一定是絕對連續的？

January 7, 2021

為什麼柯西分佈如此有用？

July 6, 2019

為什麼通過輸出離散化將回歸模型簡化為分類模型會改進模型？

May 8, 2017

整數數據：分類還是連續？

February 12, 2017

Machine-Learning

我們什麼時候應該離散化/合併連續的自變量/特徵，什麼時候不應該？

August 19, 2016