從連續分佈中確定數據的最佳離散化
假設你有一個數據集從具有密度的連續分佈支持這是未知的,但是非常大,因此內核密度(例如)估計,,相當準確。對於特定應用程序,我需要將觀察到的數據轉換為有限數量的類別以生成新數據集具有隱含的質量函數.
一個簡單的例子是什麼時候和什麼時候. 在這種情況下,誘導質量函數將是
這裡的兩個“調整參數”是組數,, 和閾值的長度向量. 將誘導質量函數表示為.
我想要一個回答的程序,例如,“什麼是最好的選擇以便增加組的數量以(並選擇最佳的那裡)會產生微不足道的改進嗎?”。我覺得也許可以創建一個測試統計量(可能有 KL 散度的差異或類似的東西),可以得出其分佈。有什麼想法或相關文獻嗎?
**編輯:**我對連續變量進行了均勻間隔的時間測量,並使用非同質馬爾可夫鏈來模擬時間依賴性。坦率地說,離散狀態馬爾可夫鏈更容易處理,這就是我的動機。觀察到的數據是百分比。我目前正在使用對我來說看起來非常好的臨時離散化,但我認為這是一個有趣的問題,其中正式(和一般)解決方案是可能的。
**編輯2:**實際上最小化KL散度相當於根本不離散數據,所以這個想法完全不成立。我已經相應地編輯了正文。
我將分享我不久前針對這個問題提出的解決方案——這不是正式的統計測試,但可能會提供有用的啟發式方法。
考慮你有連續觀察的一般情況; 不失一般性假設每個觀測的樣本空間是區間. 分類方案將取決於多個類別,,以及劃分類別的位置閾值,.
表示分類版本經過, 在哪裡. 將數據的離散化視為將原始數據劃分為類,可以認為是組內和組間變化的組合,對於固定值:
如果組內方差相對較小,則給定的分類成功地產生同質組,量化為. 因此,我們尋求一個簡約的分組,它賦予了大多數變化到學期。特別是,我們要選擇 因此,通過添加額外的級別,我們不會顯著增加組內同質性。考慮到這一點,我們定義了最優對於固定值成為
一個粗略的診斷,用於確定選擇什麼足夠的是看看下降作為一個函數- 這個軌跡是單調不增加的,並且在它急劇下降之後,你可以看到通過包含更多類別你獲得的精度相對較低。這種啟發式在精神上類似於有時使用“碎石圖”來查看有多少主成分解釋了“足夠”的變化。