我們什麼時候應該離散化/合併連續的自變量/特徵，什麼時候不應該？

August 19, 2016

我們什麼時候應該離散化/bin自變量/特徵，什麼時候不應該？

我試圖回答這個問題：

一般來說，我們不應該分箱，因為分箱會丟失信息。

Binning實際上是在增加模型的自由度，所以，binning後有可能造成過擬合。如果我們有一個“高偏差”模型，分箱可能還不錯，但如果我們有一個“高方差”模型，我們應該避免分箱。

這取決於我們使用的模型。如果是線性模式，並且數據有很多“異常值”，分箱概率會更好。如果我們有一個樹模型，那麼異常值和分箱會產生很大的不同。

我對嗎？還有什麼？

我認為這個問題應該被問很多次，但我只能在這些帖子中找到它

我們應該對連續變量進行分類嗎？

分解連續預測變量有什麼好處？

聚合具有實質性意義（無論研究人員是否意識到這一點）。

當需要時，應根據數據本身對數據（包括自變量）進行分類：

以出血統計力。

偏向關聯測量。

我相信，該文獻始於 Ghelke 和 Biehl（1934 年——絕對值得一讀，並暗示了一些可以為自己運行的足夠簡單的計算機模擬），尤其是在“可修改的面積單位問題”文獻（Openshaw , 1983; Dudley, 1991; Lee and Kemp, 2000) 清楚地說明了這兩點。

除非有關於聚合規模（要聚合到多少個單元）和聚合的分類功能（哪些個體觀察結果最終會出現在哪些聚合單元中）**的先驗理論，否則不應聚合。例如，在流行病學中，我們關心個人的健康，也關心**人群的健康。後者不僅僅是前者的隨機集合，而是由例如地緣政治邊界、種族分類等社會環境、監獄地位和歷史類別等定義的。（例如，參見 Krieger，2012 年）

參考文獻

Dudley, G. (1991)。規模、聚合和可修改的區域單元問題。[付費牆]運營地理學家，9（3）：28-33。

Gehlke, CE 和 Biehl, K. (1934)。分組對人口普查資料中相關係數大小的某些影響。[付費牆]美國統計協會雜誌，29(185):169–170。

克里格，N. (2012)。誰和什麼是“人口”？歷史辯論、當前爭議以及對理解“人口健康”和糾正健康不公平的影響。米爾班克季刊，90(4):634–681。

Lee, HTK 和 Kemp, Z. (2000)。時空數據的層次推理與在線分析處理。在第 9 屆空間數據處理國際研討會論文集上，北京，中國。國際地理聯盟。

Openshaw, S. (1983)。可修改的面積單位問題。現代地理學的概念與技術。Geo Books，英國諾里奇。

引用自：https://stats.stackexchange.com/questions/230750

comments powered by Disqus

我們什麼時候應該離散化/合併連續的自變量/特徵，什麼時候不應該？

相關問答

離散變量和連續變量。定義是什麼？

URL 特徵表示

為什麼兩個絕對連續的隨機變量之和不一定是絕對連續的？

為什麼柯西分佈如此有用？

從連續數據到分類數據總是錯誤的嗎？

特徵工程的實用性：為什麼要基於現有特徵創建新特徵？