Regression

折疊具有多個級別的分類變量的原則方法?

  • April 17, 2015

為了將它們用作統計模型中的輸入(預測器),有哪些技術可用於將許多類別折疊(或合併)為少數幾個類別?


考慮一個變量,比如大學生專業(本科生選擇的學科)。它是無序的和分類的,但它可能具有數十個不同的級別。假設我想在回歸模型中使用專業作為預測變量。

將這些級別按原樣用於建模會導致各種問題,因為實在太多了。使用它們會丟棄大量統計精度,並且結果難以解釋。我們很少對特定專業感興趣——我們更有可能對專業的廣泛類別(子組)感興趣。但並不總是很清楚如何將級別劃分為這樣的更高級別的類別,甚至不知道要使用多少更高級別的類別。

對於典型數據,我很樂意使用因子分析、矩陣分解或離散潛在建模技術。但是專業是相互排斥的類別,所以我不願意利用它們的協方差來做任何事情。

此外,我不關心主要類別。我關心生成與我的回歸結果一致的更高級別的類別。在二元結果的情況下,這對我來說暗示了類似線性判別分析 (LDA) 的方法來生成更高級別的類別,從而最大限度地提高判別性能。但是 LDA 是一種有限的技術,對我來說這感覺就像是在挖掘臟數據。此外,任何連續的解決方案都將難以解釋。

同時,基於協方差的東西,如多重對應分析 (MCA),在這種情況下對我來說似乎是可疑的,因為相互排斥的虛擬變量之間存在固有的依賴性——它們更適合研究多個分類變量,而不是多個類別的同一個變量。

編輯:要清楚,這是關於折疊類別(而不是選擇它們),並且類別是預測變量或自變量。事後看來,這個問題似乎是“把它們全部規範化,讓上帝把它們整理出來”的合適時機。很高興看到這麼多人對這個問題感興趣!

如果我理解正確,您可以想像一個線性模型,其中一個預測變量是分類的(例如大學專業);並且您期望對於其級別的某些子組(類別的子組),係數可能完全相同。因此,數學和物理的回歸係數可能相同,但與化學和生物學的回歸係數不同。

在最簡單的情況下,您將擁有一個具有單個分類預測變量的“單向方差分析”線性模型:

在哪裡對分類變量(類別)的級別進行編碼。但是您可能更喜歡將某些級別(類別)折疊在一起的解決方案,例如 這表明可以嘗試使用正則化懲罰來懲罰具有不同 alpha 的解決方案。立即想到的一個懲罰術語是

這類似於套索,應該強制差異,這正是您想要的:您希望其中許多為零。正則化參數應選擇交叉驗證。


我從來沒有處理過這樣的模型,上面是我想到的第一件事。然後我決定看看是否有類似的實施。我做了一些谷歌搜索,很快意識到這叫做類別融合;搜索lasso fusion categorical將為您提供大量參考資料供您閱讀。以下是我簡要介紹的一些內容:

Gertheiss 和 Tutz 2010 年發表在 Annals of Applied Statistics 上,看起來像是最近的一篇非常易讀的論文,其中包含其他參考文獻。這是它的摘要:

回歸分析中的收縮方法通常是為度量預測器設計的。然而,在本文中,提出了類別預測變量的收縮方法。作為一個應用程序,我們考慮來自慕尼黑租金標準的數據,例如,市區被視為分類預測變量。如果自變量是分類變量,則需要對通常的收縮程序進行一些修改。二- 提出並研究了基於懲罰的因子選擇和類別聚類方法。第一種方法是為名義尺度水平設計的,第二種方法是為序數預測變量設計的。除了將它們應用於慕尼黑租金標準外,還對模擬研究中的方法進行了說明和比較。

我喜歡他們的類似 Lasso 的解決方案路徑,它顯示了當正則化強度增加時兩個分類變量的級別如何合併在一起:

格泰斯和圖茨 2010

引用自:https://stats.stackexchange.com/questions/146907

comments powered by Disqus