決策規則作為 LASSO 中的超參數
我有一個與以下相關的問題:決策閾值是邏輯回歸中的超參數嗎? 但想澄清一下。
普遍的共識是,決策規則不是嚴格意義上的超參數,它不會影響邏輯回歸的靈活性。
在 LASSO 邏輯回歸的背景下,我有一個相關的問題。在 LASSO 中,我們優化 lambda 並創建模型,然後優化決策規則。我的問題是:這是否類似於優化說:mtry 在隨機森林中,然後使用 mtry 的靜態值並優化之後的樹數(這是不正確的方法)?如果我們要優化 lambda 並達到 lambda=0.01,然後將我們的決策規則優化為 0.6,但是如果我們同時優化它們,我們可能已經達到 lambda=0.05 和 0.65 的決策規則給我們更好的性能.
我想總的觀點和問題是,面對優化超參數以及決策規則,決策規則是嚴格意義上的超參數嗎?
從理想意義上的決策規則開始。它代表了假陽性和假陰性分類之間的成本權衡。從這個意義上說,決策規則不是數據的函數。它是您希望如何使用數據模型的函數。從這個意義上說,它不是超參數。它是關鍵參數值的優先選擇。
該報告在第 7 節中解釋了這種關係。假設正確分類的成本為 0,假設誤報和誤報的成本被縮放為總和為 1。將誤報的成本稱為 $ c $ 所以假陰性的代價是 $ (1-c) $ . 那麼最小化預期成本的最佳概率分類截止值為 $ c $ .
當您在 0.6 指定決策規則時,您實際上是在指定 $ c = 0.6 $ ,說誤報的成本是誤報的 1.5 (0.6/0.4) 倍。改變決策規則只是改變你對相對成本的估計。因此,從這個意義上說,決策規則代表了您對如何使用數據和模型的選擇,而不是獨立於該選擇從數據中學習的東西。
然而,這種關係是基於手頭有真實的概率模型,記為 $ \eta(\boldsymbol{x}) $ 作為協變量的函數 $ \boldsymbol{x} $ 在鏈接的報告中。相反,您擁有的是一個估計模型,表示為 $ q(\boldsymbol{x}) $ . 上述報告第 7 節指出:
儘管 $ \eta(\boldsymbol{x}) $ 模型可能無法很好地近似 $ q(\boldsymbol{x}) $ ,對於每個成本來說,它仍然是可能的 $ c $ 近似 $ {\eta(\boldsymbol{x})> c} $ 很好 $ {q(\boldsymbol{x})> c} $ , 但每個 $ c $ 需要單獨的模型擬合 $ q(.) $ .
因此,您希望調整模型擬合的參數 $ q(.) $ 靠近 $ \eta(\boldsymbol{x}) $ 從某種意義上說,它們在(理想的)決策規則值方面具有相似的行為 $ c $ . 做類似事情的一種方法是找到錯誤指定模型的截止概率值 $ q(\boldsymbol{x}) $ 不是 $ c $ , 說 $ c^\dagger $ ,為您的數據提供所需的模型性能(例如,準確性)。也就是說,您嘗試近似 $ {\eta(\boldsymbol{x})> c} $ 很好 $ {q(\boldsymbol{x})> c^\dagger} $ 以適合您目的的方式。我將留給其他人來決定是否應該將這種對錯誤指定模型的修改稱為“超參數”選擇,如果是,那是否是“嚴格意義上的”。
有人可能會爭辯說,應該使用決策規則的選擇(在上面的第一種意義上)來調整建模方法。具有由最大似然確定的係數值的標準邏輯回歸僅代表將線性模型擬合到具有二元結果的數據的眾多方法中的一種。其解決方案相當於最小化對數損失函數。對數損失是嚴格正確的評分規則,因為它在真實概率分佈上進行了優化。
然而,人們可以從中選擇大量嚴格適當的評分規則。請參閱上面鏈接的報告的第 2 節和第 3 節。這些規則在概率尺度上的權重不同。對數損失規則將高權重置於極端附近。如果您有誤報成本 $ c $ 在上面的公式中,您可能希望選擇一個更重視周圍概率的評分規則 $ c $ .
上面鏈接的報告廣泛描述了這些問題,並在第 9 節中展示瞭如何使用迭代加權最小二乘法來擬合基於任何適當評分規則的線性模型。這種方法可以擴展到像 LASSO 這樣的懲罰方法;報告的第 15 節表明,係數的收縮(由 LASSO 和其他懲罰方法提供)可以通過選擇一些權重函數來提高性能。
也就是說,我懷疑線性模型的錯誤規範通常比在實際應用中選擇正確的評分規則帶來更多的問題。
然而,在與您選擇相對誤報/負成本相關的概率截止值附近優化您的模型仍然是需要認真考慮的事情。例如,這是在目標最大似然估計中使用的方法,其中調整模型以關注特定的預測感興趣區域。組合多個這樣的模型可以最大限度地減少任何一個模型被錯誤指定所帶來的危險。