我們什麼時候應該離散化/合併連續的自變量/特徵,什麼時候不應該?
我們什麼時候應該離散化/bin自變量/特徵,什麼時候不應該?
我試圖回答這個問題:
- 一般來說,我們不應該分箱,因為分箱會丟失信息。
- Binning實際上是在增加模型的自由度,所以,binning後有可能造成過擬合。如果我們有一個“高偏差”模型,分箱可能還不錯,但如果我們有一個“高方差”模型,我們應該避免分箱。
- 這取決於我們使用的模型。如果是線性模式,並且數據有很多“異常值”,分箱概率會更好。如果我們有一個樹模型,那麼異常值和分箱會產生很大的不同。
我對嗎?還有什麼?
我認為這個問題應該被問很多次,但我只能在這些帖子中找到它
聚合具有實質性意義(無論研究人員是否意識到這一點)。
當需要時,應根據數據本身對數據(包括自變量)進行分類:
- 以出血統計力。
- 偏向關聯測量。
我相信,該文獻始於 Ghelke 和 Biehl(1934 年——絕對值得一讀,並暗示了一些可以為自己運行的足夠簡單的計算機模擬),尤其是在“可修改的面積單位問題”文獻(Openshaw , 1983; Dudley, 1991; Lee and Kemp, 2000) 清楚地說明了這兩點。
除非有關於聚合規模(要聚合到多少個單元)和聚合的分類功能(哪些個體觀察結果最終會出現在哪些聚合單元中)**的先驗理論,否則不應聚合。例如,在流行病學中,我們關心個人的健康,也關心**人群的健康。後者不僅僅是前者的隨機集合,而是由例如地緣政治邊界、種族分類等社會環境、監獄地位和歷史類別等定義的。(例如,參見 Krieger,2012 年)
參考文獻
Dudley, G. (1991)。規模、聚合和可修改的區域單元問題。[付費牆]運營地理學家,9(3):28-33。
Gehlke, CE 和 Biehl, K. (1934)。分組對人口普查資料中相關係數大小的某些影響。[付費牆]美國統計協會雜誌,29(185):169–170。
克里格,N. (2012)。誰和什麼是“人口”?歷史辯論、當前爭議以及對理解“人口健康”和糾正健康不公平的影響。米爾班克季刊,90(4):634–681。
Lee, HTK 和 Kemp, Z. (2000)。時空數據的層次推理與在線分析處理。在第 9 屆空間數據處理國際研討會論文集上,北京,中國。國際地理聯盟。
Openshaw, S. (1983)。可修改的面積單位問題。現代地理學的概念與技術。Geo Books,英國諾里奇。